This Page Is Inserted by IFW Operations 
and is not a part of the Official Record 

BEST AVAILABLE IMAGES 



Defective images within this document are accurate representations of 
the original documents submitted by the applicant. 

Defects in the images may include (but are not limited to): 

• BLACK BORDERS 

• TEXT CUT OFF AT TOP, BOTTOM OR SIDES 

• FADED TEXT 

• ILLEGIBLE TEXT 

• SKEWED/SLANTED IMAGES 

• COLORED PHOTOS 

• BLACK OR VERY BLACK AND WHITE DARK PHOTOS 

• GRAY SCALE DOCUMENTS 



IMAGES ARE BEST AVAILABLE COPY. 

As rescanning documents will not correct images, 
please do not report the images to the 
Image Problem Mailbox. 




DE 3631992 A 1 




V <§) BUND ESREPUBLIK 
DEUTSCHLAND 




DEUTSCHES 

PATENTAMT 



@ Offenlegungsschrift 
©DE 3631992 A 1 



(3) Int. CL 4 : 

G09C 1/00 



//G06F7/50 



§ Aktenzeichen: P 36 31 992.9 

Anmeldetag: 20. 9. 86 

Offentegungstag: 5. 1 1 . 87 





Prufungsantrag gem. § 44 PatG ist gestellt 

(§j) Kryptographie-Verfahren und Kryptographie-Prozessor zur Durchffihrung des Verfahrens 

Mit der wachsenden Verbrertung elektronischer Verfah- 
ren der Kommunikation ist die Forderung nach Geheimhal- 
tung der Kommunikationsdaten und der Absenderauthenti- 
zitat unverzichtbar. 

Die Erfindung gehtausvon dem Public-Key-Cod e-Verfahren 
in seiner Reaiisierung nach dem RSA-Verfahren. Es wird ein 
Kryptographie-Prozessor geschaffen, der Oaten nach dem 
RSA-Verfahren ver- und/oder entschlusselt und den Anfor- 
derungen einer digitalen Schnittstelle eines ISDN-Netzes 
genugt. 

Der Prozessor ist in VLSI -Tech nik aufgebaut und beshzt im 
Sinne einer wirtschaftlichen Anwendbarkert nur gednge 
Abmessungen und ermoglicht trotzdem bisher nicht erreich- 
te Verschlusselungsraten. 
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Patentansprfiche 

1. Kryptographie-Verfahren nach der Pubfic-Key-Code-Methode von Rivest, Shamir und Adleman (RSA- 
Verfahren), umfassend die Anwendung der nachfolgenden Operationen zur Chiffrierung bzw. Verschlfisse- 
i lung von Nachrichten: 

— Auswahl zweier groBer Primzahlen p und qrund einer weiteren groBen Zahl JS 
— BMung des Produktes N *=* p • q, 

— Umwandlung der zu chiffrierenden Nachrichten in eine Kette von vorzugsweise gleichlangen 
io Gliedem P* deren Werte als Zahl kleiner als der Wert der Zahl Nist, 

— Chiffrierung dieser Glieder durch die jeweilige Erhebung in die 2£te Potenz mit anschlieBender 
Bildung yon Modulo At (d. h, es entstehen die Zahlen C «=» pf Modulo A/), 

— wobei die Potenzierung durch eine Folge von MultipBkationen ersetzt wird und nach jeder Multipli- 
kation sofort eine Modulo-Operation ausgeffihrt wird,(cLh, es wild im Restklassenring Qber N multi- 

n pliziert), 

— wobei die Multiplikation in Einzelschritte zerlegt wird, so daB aus der Multiplication eine Folge von 
Additionen entsteht, und 

— wobei die Modulo-Operation nach dem klassischen Divisionsalgorithmus durch eine Folge von 
Subtraktionen ersetzt wird, 

2«i 

gekennzeichnet durch die Anwendung ernes ersten Look-Ahead- Verfahrens (V orausberechnungsverfah- 
ren) ffir die Division (Fig, 5), so daB auch die Multiplikation mit einem zweiten Look-Ahead- Verfahren 
(Fig. 4) durchffihrbar ist 

Z Kryptographie-Verfahren nach Anspruch 1, gekennzeichnet durch Look-Ahead-AJgorithmen, mit denen 
2 > die maximal notwendige Anzahl von Additionen bzw. Subtraktionen reduziert wird. 

3. Kryptographie-Verfahren nach Anspruch Z dadurch gekennzeichnet daB das erste Look-Ahead- Verfah- 
ren ffir die Modulo-Operation so gewahlt ist daB der wahrscheinlichkeitstheoretische Erwartungswert der 
Anzahl der beim ersten Look-Ahead-Verfahren fibersprungenen Operationen genau so groB ist wie der 
wahrsdieinlichkeitstheoretische Erwartungswert der beim zweiten Look-Ahead-Verfahren ffir die Multi- 

yy plikation fibersprungenen Operationen. 

4. Kryptographie-Verfahren nach Anspruch 3, gekennzeichnet durch eine Entkopplung der beiden Look- 
Ahead-Verfahren, wobei jeder der beiden Look- Ahead- V erfahren einen Schiebebetrag (szbzw. sn) erzeugt 
der angibt urn wieviel Bits das Zwischenergebnis (2) der Multiplikation bzw. der Modulus (A/) pro Zyklus 
verschoben wird, wobei das Zwischenergebnis (2) absolut um sz-Bits und der Modulus (N) relativ zum 

53 Zwischenergebnis (2) um su-Bits verschoben wird 

5. Kryptographie-Verfahren nach einem der vorhergehenden Ansprfiche 1—4, gekennzeichnet durch die 
Zusammenfassung der Addition bzw. Subtraktion des Multiplications- und des Modulo-Schrittes zu einer 
einzigen Operation (3-Operanden-Addition), wobei pro Schritt nicht zwei, sondem drei Operanden wie 
folgt addiert werden: 

A[i 1 

+ Bli] 

45 SI SO = 0 .. 3 



^[max + 1] .. X[i+ 1] JT [OJ — 0 

K[max + 11 - 0 VlQ KB)], 

und wobei cfiese 3-Operanden- Addition in zwei Abschnitte unterteilt wird. 

6. Kryptographie-Verfahren nach Anspruch 5, dadurch gekennzeichnet daB der erste der beiden Abschnitte 

»» so gewahlt ist daB an jeder binfiren Stefle eine Summe der drei Bits der Operanden A, B und Cgebildet wird, 

wobei die Summe von A [jJ 5[ij und C[j] zwischen 0 und 3 liegt sie also binfir mit den zwei Bits SI und SO 
darstefibar ist und wobei aus den zwei Summenbhs in folgender Weise zwei neue Zahlen X und Y 
zusammengestellt werden: 

to Y[i ] : « niederwertiges Bit von A [/] + B[i\ 4- C[jJ 

Y[max + 1] : « 

Xtf + 1] : - hfiherwertiges Bit von A[/] + B[i} + C[i] und 

65 (/ •» 0, . . . , max). 

7. Kryptographie-Verfahren nach Anspruch 5 und 6, dadurch gekennzeichnet daB der zweite Abschnitt so 
gewfihlt ist daB die Zahlen X und Kin an sich bekannter Weise mit Caijy (Obertrag) addiert werden, und 
daB demgegenfiber die Bitadcfition ohne Carry des ersten Abschnitts zu einem Zeitpunkt ausgeffihrt wird, in 

ORIGINAL INSPECTED 

2 
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dem die normaie Additionslogik durch ein Precharge-Signal (Vorbereitungssignal) auf den nlchsten Zyklus 
vorbereitet wircL 

8. Kryptographie-Verfahren nach Anspruch 7, dadurch gekennzeichnet, daB die Addition folgende Schritte 
umfaBt: 

a) Aufteilung der Iangen bzw. groBen Zahlen Xu nd Km kleme Blocke (32X 

b) Gleichzeitige Berechnung der Carry-Bits innerhalb der Blocke (32) nach einem an sich bekannten 
Carry-Look-Ahead- Verfahren* und 

c) Weitergabe des Carry-Bits je ernes Blockes zum jeweils nachfolgenden Block, fur den Fall, daB sich 
die Carry-Bits benachbarter Blocke nicht beeinflussen. 

9. Kryptographie-Verfahren nach Anspruch 8, dadurch gekennzeichnet, daB ein durch die Bldcke (32) 
aktivierbarer Unterbrecher (62) vorgesehen ist, der fdr den Fall, daB sich Carry-Bits fiber benachbarte 
Blocke hinaus beeinflussen, die erforderliche Zeit ffirderen Berechnung und Berficksichtigung bereit halt 
(Rg. 14). 

10. Kryptographie-Prozessor zur Durchffihrung des Kayptographie-Verfahrens, gekennzeichnet durch eine 
Aneinanderreihung von ffir die Berechnung der einzelnen Opera tionen spezialisierten Elementarzellen (10), 
wobei jeweils mehrere Elementarzellen (10) stufenweise (Fig. 8) zu groBeren Blocken (32; Fig. 9) zusam- 
mengefaBt sind, und wobei jedem Block (28; 32) ein baumartiges hierarchisches Carry-Look-Ahead-Ele- 
ment (30) zugeordnet ist, wodurch im Normalfall gewahrleistet ist, daB die Zeit zur Addition zweier Zahlen 
unabhangig von der Lange dieser Zahlen ist, und wobei in jedem Block (32) der Obertrag parallel durchge- 
fflhrt wird. 

1 1. Kryptographie-Prozessor nach Anspruch 10, dadurch gekennzeichnet, daB die Elementarzellen (10) die 
folgenden Register und Logik-Bauteile enthalten: 

— ein Register (12) fur den Multiplikator (A4), 

— ein Code-Register (14), 

— ein Datum-Register (16), 

— ein UD-Shift-Register (18), in dem wahrend der Berechnung ein Vielfaches des Modulus (N) steht, 
und das auBer der Speicherfunktion die Ffihigkeit besitzt, den Modulus (N) in einem Schritt in eine der 
beiden Ricbtungen um mehrere Stellen zu verschieben, 

— einen Barrel-Shifter (20), der das Ergebnis der Addition, ein Zwischenergebnis (Z) um mehrere Bits 
versdiieben kann, 

— einen Bitaddierer (22) ohne Obertragsbit (Carry-Bit), der den ersten Schritt der 3-Operanden-Ope- 
ration ausfuhrt, 

— einen VoDaddierer (24), der die beiden im Bitaddierer (22) gewonnenen Zahlen addiert und als ein 
Zwisdienergebnis (Z) speichert, und 

— ein Carry-Look-Ahead-Element (26), welches ein Obertragsbit berechnet 

12 Kryptographie-Prozessor nach Anspruch 11, dadurch gekennzeichnet, daB alle Komponenten (12—26) 
parallel arbeiten. 

13. Kryptographie-Prozessor nach einem der vorhergehenden Ansprfiche 10—12, dadurch gekennzeichnet, 
daB mehrere Bldcke (28) von Elementarzellen (10) zu grdBeren Blocken (32) zusammengefaBt sind, wobei 
der Obertrag seriell von einem Block zum niichsten weitergegeben wird, und wobei die Carry-Look-Ahead- 
Elemente (30) der Bldcke (32) wiederum baumartig zusammengestellt werden, und wobei auf jedem fiberge- 
ordneten Carry-Look-Ahead-Element (30) ernes Blockes (32) der Obertrag gleichzeitig berechnet wird, und 
daB ein sich dabei ergebendes Signal gegebenenfalls einen Unterbrecher (62) ansteuert, wobei der Unter- 
brecher (62) die von den Carry-Look- Ahead-Elementen (30) kommenden Signale verarbeitet und die Takte 
ffir etwa acht Zyklen unterbricht, falls ein Carry-Look-Ahead-Element eines Blockes (32) ein Signal gibt 

14. Kryptographie-Prozessor nach einem der vorhergehenden Ajisprfiche 10—13, gekennzeichnet durch 
eine MultMod-Steuereinheit (36; Fig. 12) zur Steuerung der Funktionen der Elementarzellen (10), wobei die 
MultMod-Steuereinheit (36) folgende Bestandteile umfaBt: 

— eine Schiebelogik (50) ffir die Multiplikation, 

— eine Schiebelogik (52) ffir die Modulo-Operation, 

— einen Vergieicher (38), der die obersten Bits des Zwischenergebnisses (Z) des Volladdierers (24) mit 
deh obersten Bits von 1/3, 1/6, 1/12 usw. von Modulus A/parallel miteinander yergleicht, 

— einen ersten Begrenzer (54) ffir die Multiplikation, der den maximalen Schiebebetrag des Zwischen- 
ergebnisses (Z) im Bedarfsfafi begrenzt, und einen zweiten Begrenzer (56) ffir die Modulo-Operation, 
der den maximalen Schiebebetrag des UD-Shift-Registers (18) im Bedarfsfafi begrenzt, und 

— zwei Zahler (58, 60^ von denen der erste Zahler (58) die noch zu verarbeitenden Bits des Registers 
(12) und von denen der zweite Zfihler (60) die Position von Modulus A/in einem Puffer (34) angibt 

15. Kryptographie-Prozessor nadi einem der vorhergehenden Ansprfiche 10 — 14, gekennzeichnet durch 
einen als Puffer (34) ausgebildeten Elementarblock mit einer Lange von ca. 20 Bits, der die Look-Ahead-AJ- 
gori thm en ffir die Multiplikation unrf ffir die Modulo-Operationen voneinander entkoppelt, indem A/in den 
Puffer (34) hineinlfiuft und wobei die MultMod-Steuereinheit (36) durch die Begrenzer (58, 60) gewfihrlei- 
stet,dafider Modulus A/nicht fiber die Poffergrenze nach oben oder unten h inausl fi uf t 
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16. Kryptographie-Prozessor nach Anspruch 10, dadurch gekennzeichnet, dafi jeweils zwanzig Elementar- 
zellen (10) zu jeweils einem 20 -ZeIlen- Block (32) zusammengefaBt sind. 

17. Kryptographie-Prozessor nach Anspruch 10, gekennzeichnet durcb eine Verschlfissdungseinheit (40X 
einen variabel gestaltbaren Registerblock (46), einer Eingabe/Ausgabeeinheit (44) und einer Hauptsteuer- 

> einheit (42), die fiber Datensammelleitungen miteinander in Wirkverbindung stehen (Fig. 11). 

Beschreibung 

Mit der standxg wachsenden Verbreitung elektronischer Verfahren der Kommunikation and der Informa- 
\h tions-Speicherung ist die Forderung nach Geheimhaltung, insbesondere der Geheimhaltung wichtiger Doku- 
mente, wie z. B. Bankfiberweisungen, Vertrage und dergteichen, unverzichtbar geworden. 

Wahrend das Problem des Datenschutzes in der Gesetzgebung bereits eine gewisse Berficksichtigung gef un- 
den hat, sind die technischen Probleme zur Drucfaffihrung des Datenschutzes mittels der Geheimhaltung von zu 
ubermittelnden Daten bisher noch hochst unbefriedjgend gelost Die Obertragung von Daten fiber Funk Oder 
i j Breitbandkabel erfolgt mehr oder weniger dffendich. Jedenfalls wird ffir die Vertrauiichkeit der Obertragung 
keine Garan tie fibemommen. Die Gefahr des MiBbrauches ist dabei keinesf alls auszuschfiefien. 

Hinsichtlich der Obertragung von Daten fiber Funk oder Kabel ist diese Gefahr mit teclmischen Mrtteln nicht 
zu beseitigen. Der Benutzer selbst muB fur die erforderliche Sicherheit sorgen. Hierzu gehort auch die Sicherung 
der Authentizitfit des Absenders sowie der Manipulationsschutz der NachrichL 
20 Aus Sicherheitsgrflnden gilt es deshalb, die zu ubertragenden Informationen, Daten, Texte usw. zu verschlfls- 

seln, <L h, derartig umzuwandeln, daB ein Unbefugter sie nicht verstehen kann. Dabei kann allgemein gesagt 
werden, daB eine Verschlfisselung um so sicherer ist, je komplizierter die der Verschlusselung zugrunde liegen- 
den Operationen sind. 

Bei den als klassisch zu bezeichnenden Verschlfisselungs-Verfahren hand el t es sich um symmetrische Metho- 
2 > den, bei denen der Chif frier- und Dechiffrier-Schlfissel gleichartig, <L h. idendsch oder invers sind. Solange der 
diesbezfigliche Schlfissel geheim ist, kann die entsprechend chiffrierte Nachricht dffentlich fibertragen werden. 
Damit aber der Empfanger diese Nachricht verstehen kann, ist es erforderiich, daB dem Empfanger der geheime 
Kodier-Schlussel durch einen vertrauenswfirdigen Boten zugestellt wird. Diese Art der Zustellung des geheimen 
Schlussels ist umstandlich und zeitraubend, und zwar besonders dann, wenn mehrere Empfanger mit einer 
30 vertraulichen Nachricht versorgt werden sollen. Im fibrigen mutet es im elektronischen Zeitalter anachronistisch 
an, Kuriere fur die Obermittlung von geheimen Chiffrier-Schlfisseln einzusetzen. 

Demgegenfiber stefien die Chiffrier-Methoden nach dem sogenannten PubHc-Key-Code-V erfahren gedank- 
lich einen groBen Fortschritt dar. Diese Public-Key-Code-Verf ahren sind durch eine asymmetrische Verschlfis- 
selung gekennzeichnet Das bedeutet, daB zum Ver- und Entschlfisseln zwei verschiedene Schlfissel benutzt 
35 werden. Bei den asymmetrischen Verfahren ist sichergestellt, daB der eine Schlfissel sich nicht ohne Zusatzinfor- 
mation aus dem anderen berechnen IfiBt Einer der beiden SchlQssel kann daher verdffentlicht werden. Aus 
diesem Grunde haben diese Verfahren die bezdchnung'Tubhc-Key-Oxle- Verfahren" erhalten. 

Will ein Benutzer der dffentlichen Netze mit anderen Teilnehmem mittels eines Public-Key-Code- V erfahrens 
Nachrichten austauschen, so muB er ein einziges Mai zwei Schlfissel E und D erzeugen. Den Schlfissel E zum 
40 Verschlusseln macht er fiber ein Offentliches Register alien anderen Benutzern zuganglich, den Schlfissel D zum 
Entschlfisseln halt er geheim. Darfiber hmans werden bei manchen Verfahren auch die aUgemeinen Rechenvor- 
schriften der Verschlusselung bekanntgegeben, ohne dadurch die Sicherheit der Geheimhaltung des Inhalts der 
versehlfisselten Nachrichten zu geffihrden. Audi ist die Authentizititt der Naduicht kein Problem. Die Sicherheit 
der asymmetrischen Methode beruht darauf, daB es praktisch unmdglich ist, Daus Em berechnen. 

45 Jeder, der einem anderen Benutzer eine Nachricht zusenden mdchte, besorgt sich den Schlfissel E aus dem 
verfiffentlichten Register, verschlfisselt damit die Nadiricht und fibertragt den so erhaltenen Code im unsicheren 
(gegebenenfalls digitalen) Netz, beispielsweise dem dffentlichen Telefonnetz. Der adressierte Benutzer (Emp- 
fanger) entschlfisselt den empfangenen Code mit seinem geheimen Schlfissel D und erzeugt so die ursprfingiiche 
Nachricht Sowohl zur Obermittlung eines Schlussels als auch zur Obermittlung der Nachricht selbst erfibrigt 
y* sich somit ein sicherer ObertragungskanaL Der adressierte Benutzer erhalt ausschlieBHch Nachrichten, die mit 
seinem eigenen Schlfissel versdilfisselt worden sind. Daher braucht er nur auf den eigenen Schlfissel Dzuzugrei- 
fea 

Bei diesen Vaf ahren wird somit eine leichte Verfflgbarkeit der Schlfissel erreicht Ebenso wird der Benutzer 
der Verwaltung eines umfangreichen persdnlichen Schlfisselregisters enthoben. Die Schlusselverwaltung erfolgt 
nur einmal, und zwar zentral im jedermann zuganglichen Raster, z. B. nach Art elektronischer Telefonbficher. 
Mit dieser Obertragungsprozedur kdnnen alle Arten von Ubertragungsnetzen (z. B. “ISDN* 1 ) sicher gemadit 
werden. 

Bei der beschriebenen Ausffihrungsform des PubBc-Key-Code-Verfahrens ist noch nicht die Sicherung der 
Absenderauthentizitat sowie der Manipulationssdiutz der Nachricht gewllhrleistet Primdpiell ist es aber mfig- 
lich, fakchungssichere *Untersdhriften* in digitaler Form zu fibermitteln, und zwar dann, wenn die Reihenfolge 
der Anwendung der Schlfissel E und D vertauschbar ist Der Absender kann dann eine Signatur erzeugen, die 
zusammen mit der versehlfisselten Nachricht fibertragen wird. Die Signatur ist ein mit dem geheimen Absender- 
schlfissel D verschlfisselter “Extrakt* der Nachridit Zur Ob^prfifung der Absenderauthentizitat erzeugt der 
Empfinger aus der rekonstruierten Nadiricht ebenfalls den Extrakt, entschlfisselt die Signatur mit dem Sffentli- 
w chen Absenderschlfissel E und vergleicht beide. Sind sie identiscb, so muB die Nadiricht vom angegebenen 
Absender stammen, da nur der Absender den zum Absenderschlfissel E passenden Schlfissel D kennt, mit dem 
die Signatur versdilfisselt wurde. 

Mit der Signatur ist die Nachricht auch vor Manipulationen geschfitzt Dor Absender kann die Qbertragene 
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Nachricht nicfat abstreiten, da der Empfanger fan Besitz einer Signatur dieser Nachricht ist Andererseits kann 
der Empfanger die Nachricht nicht verfindern, da er ffir die verfalschte Nachricht keine Signatur erzeugen kann. 
Diese hfingt wegen des Extraktes nicht nur vom Absender, sondern auch von der Nachricht ab. Hierdurch wird 
ein boherer Schutz als durch die Unterschrift unter einem Dokument gewahrleistet 

Das wohl bekannteste Public-Key-Code-Verfahren ist das nach da i Anfangsbuchstaben seiner Erfinder > 
Rivest, Shamir und Adleman bekannte RSA-Verfahren. Die Sicherheit dieses RSA-Verfahrens beruht darauf, 
daB es praktisch unmoglich ist, groBe Zahlen (z. R 200 Dezimalstellen) zu faktorisieren, cL h. alle Primzahlen zu 
finden, durch die diese groBe Zahl ohne Rest geteilt werden kann. 

Das RSA-Verfahren funktioniert folgendermaBen: Zunfichst wahlt jeder Benutzer des RSA-Systems zwei 
groBe Primzahlen p und q und eine weitere groBe Zahl R Die Zahlen kdnnen z. R mit dem Zufailszahlen-Gene- * l > 

rator eines Rechners erzeugt werden. Zur Beantwortung der Frage, ob es sich bei dor jeweils voriiegenden Zahl 
um eine Primzahl handelt oder nicht, stehen Algorithmen zur VerfQgung (siehe z. R: Pomerance, C "Recent 
Developments in Primality Testing", Department of Mathematics, University of Georgia, in "The Mathematical 
Intenigencei^S.97-104, Vol 3,Nr.3, 1981). 

Das RSA-Verfahren schreibt eine bestimmte Mindestlange fur die Primzahlen nicht vor. Kurze Zahlen * 3 
machen den Algorithmus schneller, vergroBern aber die Gefahr, daB das Produkt der Primzahlen faktorisiert 
werden kann. Bei langen Zahlen ist es umgekehrt 100 Dezimalstellen werden allgemein als ein guter Kompro- 
mifl angesehen. Mist das Produkt aus den Primzahlen p und q. Das Zahlenpaar (R N) ist der offentliche Schlfissel, 
wahrend die Primzahlen p und q ausschlicBlich dem Empffinger einer Nachricht bekannt sind 

Zur Chiffrierung der Nachricht verwandelt der Absender zunfichst seinen Text in eine Kette von Dezimalzah- 2«> 
len. Diese Kette wird dann in gleichlange Gfieder P+i < N zerlegt Diese Giieder werden sodann einzeln 
chiffriert, indem man sie jeweils in die 2>te Potenz erhebt und dann modulo N bildet, (Lit, es entstehen die 
Zahlen G « Ff modulo N. Diese Zahlen G werden dann fiber einen unsicheren Kanal geschickt Zur Auswer- 
tung der Zahlen ist es erforderlich, ihren Exponenten modulo <fl(A) zu berechnen, wobei <P(AQ = 

(p — 1) - (q — 1) ist Da ausschlieBlieh der Empffinger die Primzahlen p und q kennt, kann nur er den Dechiffrier- 23 
Schlfissel D = E- 1 modulo <P(N) berechnen. Zu diesem Zweck erhebt der Empfanger jede empfangene Zahl G 
in die D* te Potenz und reduziert modulo ^ Da G modulo N «= Pf° modulo Afund ED modulo = 1, ergibt 

die Operation Pf° modulo Nwieder die Zahlenblocke des Klartextes. 

AuBer den als “klassisch" bezeichneten Chififrier-Verfahren zeigen auch die bisher bekanntgewordenen Pu- 
blic-Key-Code-Verfahren gravierende Mangel Sowohl software- als auch hardwaremafiige Realisierungen io 
scheiterten bisher stets an dem immensen Aufvvand und dot damit verbundenen hohen Kosten. 

Nach dem bishereigen Stand der Chip-Entwicklung ist es nicht mdglich, einen Universal-Rechner softwarema- 
Big mit dem RSA- Algorithmus (bei Zugrundelegung von 200 Dezimalstellen) so zu programmieren, daB akzep- 
table Verschlusselungsgeschwindigkeiten bzw. VerschlQsselungsraten erreicht werden. 

Auch kann die RSA-Funktion (Potenzierung mit anschKeflender Modulo-Operation) nicht direkt in ein VLSI- 33 
Layout (VLSI = Very Large Scale Integration) umgesetzt werden, weil es keine direkten Potenzierschaltungen 
gibt Die geschilderte Erkenntnis hat bereits seit mehreren Jahren zu dem Wunsch nach speziellen Hardware- 
LSsungen geffihrt, um die Potenzierung so in Einzelschritte zu zerlegen, daB eine hinreichende Verschlfisse- 
lungsgeschwindigkeit bzw.-Rate mdglich ist 

Die heute bekannten Realisierungen der Public-Key-Code- Verfahrai benotigen aber sehr viei Rechenzeit 40 
Software-Losungen haben Ver- bzw. Entschlfisselungsraten von 10 bis 20 Bit/sea. Auch erste bekannte Hardwa- 
re-L5sungen erreichen nicht mehr als 1 200 Bit/sec. Die einzige bisher reafisierte Ein-Chip-Losung stammt von 
Rivest (Rivest, R- L, “A Description of a Single-Chip Implementation of the RSA Cipher", Laboratory for 
Computer Sience, MIT, Cambridge, Massachusetts, in “LAMBDA M a g az in e 1“ S. 14—18, Nr. 3, 1980). Bei 
diesem Vorschlag wurde eine relativ einfache Ent wurfs methode gewfihlt, die insbesondere darin besteht, daB mit 4 > 
einer he rfrfimmKdiwi arithmetisch-k>gBchen Elementarzelle eine 512 Bit breite arithmetisch-logische Einheit 
(ALU) konstruiert wurde. Diese arithmetisch-logische Einheit ist so aufgebaut, daB mit ihr sehr verschiedene 
Operationen ausgeffihrt werden kdnnen. Die in Kauf genommene Redundanz schligt sich in einer Versdilfisse- 
iungsrate von 1 200 Bit/sec nieder. Dabei ist eine 4 pm-NMOS-Technologie benutzt worden (Extrapofiert auf 
eine 2 pm-CMOS-Technologie wfirde sich bei einer Schlfissel-Lfinge von 660 Bits eine Verschlfisselungsrate fan 
Bereich von 2 500 Bit/sec ergeben). 

Diese LOsung ist in der Praxis afierdings nicht akzeptabel, da die Schnittstellen der digitalen Netze mit sehr 
riel hdheren Datenraten arbeiten, z. R arbeiten die ISDN-Schnittstellen mit 64 Bit/seo. 

Es ist auch schon ein Kryptographie-Prozessor vorgeschlagen worden. der aus zwei Chips besteht, und mit 
deren Hilfe 336 Bit lange Zahlen des RSA-Algorithmus aufgearbeitet werden kdnnen (Rieden, R.F,].R Snyder, 55 
R J. Widman and W. J. Barnard, *A Two-Chip Implementation of the RSA Public-Key Encryption Algorithm" 
Digest of Papers for the 1982 Government Microdrcuit Applications Conference (November 1982), 24—27). 

Der schnellste bekannte RSA-Prozessor ist mit dem Vorschlag von NEC/Miyaguchi gegeben (Miyaguchi, S^ 

“Fast Encryption Algorithm for the RSA Cryptographie System", Proceedings COMPCON 82). Er ari>eitet pro 
Zyklus 8 Bits des Muhiplikators ab und erreicht dabei eine Geschwindigkdt von 29 000 Bits/sec. Da er aber ffir 60 
- die praktische AusfQhrung die hohe Anzahl von 333 Chips bendtigt, ist er in wirtschaftlicher Hinsicht natflriich 
vdlfig indiskutabel 

Ein genereller Nachtefl der Mehr-Chip-Implementierungen besteht nicht nur in den proportional mit der 
Anzahl der erforderlichen Chips stdgenden H ardware- Kosten, sondern vor afiem in der fehlenden Gewfihr ffir 
Sicherheit Wenn die Signale, die von einem zum anderen Chip fibertragen werden, zugfinglich sind, so kann bS 
anhand der fibertragenen Signale der Gehdmoode gebrochen werden. Dehalb ist es aus Grfinden der Krypto- 
graphie-Sicherheit wesentlich, daB alle Kryptographie- Algorithmen mdgOchst von einem einzigen Chip durch 
einen Tresor gesditttzt werden kdnnten. 
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In der DE-PS 32 28 018 ist ein SchlQsselsystem fOr RSA-Kryptographie beschrieben, welches ebenfalls einen 
extrem hohen Hardware- Bedarf erfordert Im Vergleich mit dem ursprunglichen RSA-Algorithmus soli bei dem 
bekannten SchlQsselsystem die Verschlfisselungsrate urn den Faktor 4 erhdht werden, was aber nur eine 
bescheidene Verbesserung darstellt Zu dlesem Zweck wird eine feste Anzahl von vier Bits gleichzeitig verarbei- 
> tet, wofQr mehrere Multiplikatoren erforderiich sind, und wofQr insgesamt 14 Addierer angegeben werden. 

Theoretisch ist es zwar denkbar, daB der Prozessor fQr das bekannte SchlQsselsystem gemaB der DE-PS 
32 28 018 viermal so schnell wie die direkte Verwendung des ursprunglichen RSA-Algorithmus ist, da aber die 
Signal wege sehr viel groBer sind als bei einer Abtastung von jewefis einem einzigen Bit, ist in der Praxis kaum ein 
effektiver Zekgewinn zu erwarten. 

m Audi ein gedanklich angenommener Universal-Chip mit einer 100-fachen Rechnerdichte ware Qbrigens nicht 

in der Lage, den bekannten RSA- AJgorithmus abzuarbeken. A us diesem Grunde kSme, wenn uberhaupt, nur ein 
Spedal-Kryptographie-Chip in Frage, allerdings wurden sidi dabei erhebliche KQhlprobleme einstellen, denn 
bei derartig hochspezialisierten Chips wQren — im Unterschied zu Universalchips — samtliche Trans istorfunk- 
tionen fast stQncfig im Einsatz. Dies ist nut betrachtlichen Verlustleistungen verb unden, die wegen der angenom- 
1 > menen 100-fachen Rechnerdichte aus eine 100-fache (Verlust-) Leistungsdidite zur Folge haben wQrde. 

DaB die damit verbundenen KQhlprobleme nicht unbetr&chtlich sind, zeigt der aufwendige Vorschlag, die 
KQhlung mittels verflQssigter Edelgase durchzufuhren, die durch im Sifizium-Chip fuhrende Bohrungen hin- 
durchflieBen. Andererseits ist zu berticksichtigen, daB sich als Folge einer ungenQgenden KQhlung eine erheblich 
verkfirzte Lebensdauer der Chips und eine erhohte Fehlerquote bei den VerschlQsselungsoperationen ergibt 
yi AuBerdem wQrde der angenommene Universal-Chip mit der hohen Rechnerdichte von den raumlichen Abmes- 
sungen her so groB ausfallen, daB eine praktikable Anwendung auBer Betracht bleiben mQBte. 

Hier greift nun die Erfindung ein, der die Aufgabe zugrunde liegt, ein Kryptographie-Verfahren anzugeben, 
welches bei hinreichender Sicherhek eine so schnelle Rechengeschwindigkeit ermdgficht, daB eine kommerzielle 
praktikable Anwendung des an sich bekannten RSA-Verfahrens mdglich ist AuBerdem soil durch die Erfindung 
- 5 ein Kryptographie-Prozessor zur Durchfuhrung des Verfahrens geschaffen werden, der die gesteliten Anforde- 
rungen bei kleiner handlicher Bauweise bzw. Chip-Abmessungen ermoglicht 

Dieses Ziel erreicht die Erfindung verfahrensmSBig bei dem im Oberbegriff des Anspruchs 1 genannten 
Kryptographie-Verfahren durch die im kennzeichnenden Teil des Anspruchs 1 genannten Merkmale, wobei den 
Anforderungen einer digitalen Schnittstelle ernes ISDN-Netzes genQgt wird 
to Ein wesentlicher Gesichtspunkt der Erfindung ist die neuartige Anwendung eines Look-Ahead-Algorithmus 
fur die Division. Durch diesen Schritt wird es namlich mdglich, ein Look-Ahead-Verfahren auch bei der Multipli- 
kation anzuwenden. Somit sind beim Abarbeiten mehrerer Bits nur einfache Additionen und Subtraktionen 
erforderiich, cL h. ein zusQtzliches Multiplizieren kann entf alien. 

Die Vorteile des neuen Verfahrens basieren also im einzelnen darauf, daB der gesamte Kryptographie-Algo- 
55 rithmus suksessive so weit in kleinere Schritte zerlegt wind, bis jeder Rechenschritt in einfacher Weise direkt mit 

einer Hardware- Auslegung korrespondiert 

Vorteilhafte Weiterbildungen und zweckmQBige Ausgestaltungen der Erfindung sind in den Unteranspruchen 
angegeben. 

Jeweils bei der GegenQbersteQung der einzelnen Operationen zeigen rich bereits die Vorteile der erfindungs- 
Vl gemaBen Anordnung gegen Qber dem Stand der Technik. Durch die Umwandlung des Exponenten-Algorithmus 
in eine Folge von Muitiplikationen, wobei nach jeder einzelnen Muldplikation eine Modulo-Operation ausge- 
fuhrt wird, wird verhindert, daB die Zwischenergebnisse nicht, wie bei der Potenzierung Qblich, ins Astronomi- 
sche anwachsen (£>und 2? haben je 200 Dezimalstellen). 

Dadurch, daB darQberhinaus die Muldplikation in Einzelschritte zerlegt wird, bei der die Muldplikation in eine 
45 Folge von Additionen umgewandelt wird, kann die Berechnung schneHer erfolgen. So wird zur Realirienmg 
auBerdem weniger FlQche auf dem Chip benotigt 

Die weiter unten erlauterte Reduktion der Modulo-Operation in eine Folge von Subtraktionen wird mit 
derselben Additionslogik berechnet, denn eine Subtraktion kann als Addition mit umgekehrten Vorzeichen 
behandelt werden. 

50 Da die Muldplikation im Ring Qber Nausgefuhrt wird, kann bereits nach jeder Addition eine Modulo-Opera- 

tion ausgefQhrt werden, Auch hierdurch werden groBe Zahlen vermieden und betrSchtliche Rechenzeit einge- 
spart Simtliche Zahlen jedes Schrittes sind mm kleiner als N. Auf diese Weise wird die maximal erforderliche 
GrdBe des Speichers auf die Lange von Wreduziert, was mk einer Halbierung der erforderlidien ChipflQche 
verbunden ist 

” Betrichtliche Bedeutung fQr das Kryptographie-V erfahren liegt in der vorteilhaften Anwendung von Look- 
Ahead-Algorithmen, denn hierdurch wird die maximale Anzahl erforderiich wertiender Additionen fflr die 
Muitiplikationen und Subtraktionen fQr (fie Modulo-Operationen weiter betrQditfidi reduziert Das sich die 
EnfQhrung der Look-Ahead-AlgcHithmen in einem Gewinn an Rechengeschwondigkeit auszahlt, ergibt rich aber 
erst durch die EinfQhrung der erfindungsgemQBen neuen Look-Ahead-Algorithmus fQr die Modulo-Operation, 
60 denn die bloBe Anwendung bekannter Look-Ahead- Algorkhmen auf die Muitiplikationen wQrde keinesfalls 
einen Zeitgewinn erbringen. Erst wenn <fie mittiere Reduktion des mk der Modulo-Operation verbundenen 
Rechenaufwands der mk der Muldplikation mOglichen Rechenreduktion entspricht, ergibt sich ein optimaler 
Algorithmus, der die Rechenzeit auf etwa 1/3 reduziert Diese vorteilhafte Einsparung an Rechenzeit hkngt mit 
dem weiter unten noch erlauterten “Schwimmen" zusammen; wQhrend Z absolut verschoben wird, erfolgt die 
65 Verschiebung von AfrelativzuZ^sodaBdiebeiden Verschiebe-Raten voneinanderentkoppeksindL 

Der letzte VorteQ in der Kette von Verfahrensschritten besteht in der VerknQpfung der sich aus der Multipli- 
kation ergebenden Addition und der sich aus der Modulo-Operation ergebenden Subtraktion zu einer einzigen 
Operation, der 3-Operanden-Adcfition. Mk ihrer HQfe braucht die Zykluszeit nicht erweitert zu werden, denn fQr 
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die 3-Operanden-Addhion wird die gleiche Zeh benotigt wie fOr eine einfache Addition. Hierdurch wird eine 
Verdoppelung der Rechengeschwindigkeit bewirkt 

Einerseits resultiert ein Zeitgewinn aus den vorteilhaften Anwendungen von mathematischen Transfonnatio- 
nen auf die einzelnen Verfahrensschritte, andererseits ergeben sich aus der erfmdungsgem§Ben Architektur des 
Kiyptographie-Prozessois weitere Verbesserungen. Durch die Organisation zu baumartigen Strukturen kdnnen 
die einzelnen Elemente gleichzeitig eine grdfiere Anzahl von Informationen abarbeiten. Auch hierdurch wird die 
Rechenzeit weiter betrachtlich verkflrzt 

Mit der erfindungsgemaBen Blocks truktur reduziert sich die Rechenzeit fur eine 660-Bit-Addition auf die 
L3nge einer 20-Bit- Addition. 

Zusammenfassend ist festzustellen, daB der erfindungsgemaBe Kryptographie- Prozessor die Ver- und Ent- 
schlusselung mit einer Rate von 64 000 Bits pro Sekunde durchfGhrt Dies gilt auch ffir den ungunsdgsten Fall, wo 
der SchKlssel die maximale Lange von 660 Bits anfweisen sollte. 

Die mit dem erfindungsgemaBen Kryptographie-Verfahren bzw. mit dem entsprechenden Kryptographie- 
Prozessor erzielbaren Vorteile werden augenscheinlich, wenn man seine “Ober-alles-Effizienz* mit der einer 
Software-Implementierung, z. B. auf einem 16 Bit breiten Bit-SIice-Prozessor (BSP) vergleicht, der speziell auf 
die VerschlOsselungsaufgabe zugeschnitten worden ist: Heute erhaltliche BSFs haben eine Taktfrequenz von ca. 
10 MHz. Sie kdnnen in einem Zyklus zwei 16-Bit-Worte addieren bzw. subtrahieren und gleichzeitig das 
Ergebnis um 1 Bit verschieben. Einen Barrel-Shifter haben sie nicht, so daB eine Shift-Operation seriell ausge- 
fOhrt werden muB. Unter diesen Bedingungen hat ein Look-Ahead negative zeitliche Auswirkungen. Ffir die 
Zahl A der Zyklen zur Ausfuhrung einer Operation wird angenommen, daB der BSP ffir jeden Sehritt seiner 
Hauptschleife nur einen Zykhis bendtigt Sie besteht aus (vgL Fig. 3): 

1. Z[i[ ; «= Z(7J + P[/] und 

2. Z[j] : = Z[i] + — Af£/J verschiebe Z[i] um 1 Bit 

Das Mikroprogramm der BSFs kann so ausgelegt werden, daB sich die Schleife auf den zweiten Sehritt 
reduziert, wenn der erste aufgrund des Tests des entsprechenden Bits im Multiplikator entf alien kann. Da der 
erste Sehritt mit einer Wahrscheinlichkeit von 1/2 ausgefflhrt werden muB, bat A einen Wert von 1 A Fflr den 
Vergieich folgt: 

Vrsa.kp = Skp_ . Erw(sz) > L(N) : A = 30 MHz 2^7 - 660 ■ 1,5 
Vrsa.oiiz. /bsp B 10 MHz 16 

Der Vergieich zeigt, daB der erfindungsgemaBe Kryptographie-Prozessor selbst spezialisierten Abstimmun- 
gen aus Hard- und Software um mehr als zwei GrdBenordnungen Qberlegen ist Ist der RSA-Algorythmus auf 
nomalen Rechenanlagen nur softwaremaBig implementiert, kann von Unterschieden im Bereich von 10 000 
ausgegangen werden, da die Hauptschleife bei weitem nicht so effizient ausgefuhrt werden kann. 

Verglichen mit dem eingangs erwahnten Rivest-Prozessor ergibt sich eine 50-fache Einsparung an VerschlOs- 
selungszeit trotz einer um ca. 30% grOBeren SchlOssellange. Diese gewaltige Steigerung der uber-Alles-Effi- 
zienz wurde sowohl mit der erfindungsgemaBen Anwendung neuer Verfahrensschritte als auch durch eine 
spezielle Chip- Architektur ermoglicht 

Der erfindungsgemaBe Kryptographie-Prozessor arbeitet als sogenannter Coprozessor. Er besitzt zwei 
DMA-Kanale fur das Daten 1/0 und einen 8 Bit breiten Dalenbus. Die Kodier- und die I/0-Einheit arbeiten 
parallel Er stellt eine “Kryptographie-Box“ dar, bei der die Ver- und En tschlussel ungen von auBen nicht 
beeinfluBt werden konnen, bei der eine Signatur erzeugt wird, und zu der die SchlOssel nur im verschlOsselten 
Zustand flbertragen zu werden brauchea 

Im folgenden wird das erfindungsgemaBe Kryptographie-Verfahren und der darauf aufbauende Kryptogra- 
phie-Prozessor, mit deren Hilfe Daten nach der Public-Key-Codc-Methode von Rivest, Shamir und Adleman 
(RSA) ver- und entschlflsselt werden, anhand eines Ausfflhrungsbeispiels naher besdhrieben. 

Im ersten Teil der Beschreibung, der sich mit dem erfindungsgemaBen .Kryptographie-Verfahren befafit, 
werden die gegenflber dem ursprOnglichen RSA-Verfahroi gegebene Modifizierungen erlSutert Deshalb wird 
dabei haufig auf den ursprOnglichen RSA-Algorithmus Bezug genommen. Da das weitere Ziel der Erfindung in 
der Realisierung des Verfahrens in einem effizienten VLSI-Layout besteht, bleibt es nicht aus, bereits bei der 
Beschreibung des Verfahrens auf die entsprechenden Hardware-Mdglichkeiten hinzuweisen. Insbesondere 
werden komplexe Operationen soweit in Grundoperationen (Addieren, Subtrahieren, Verschieben usw.) zerlegt, 
bis sich jeder Sehritt unmittelbar in den spater folgenden VLSI-Entwurf umsetzen laBt Deshalb spielt die 
Betrachtung des Algorithmus aus der Sidit der Hardware eine wichtige RoHe. Viele Schrittfolgen des RSA-Al- 
gorithmus werden durch vorteilhaftere ersetzt 

Da die EntschlOsselung mathematisch identisch mit der VerschlOsselung ist, wird deshalb im folgenden auf die 
beiden VorgSnge nicht gesondert eingegangen. 

In der Zeichnung z eigen: 

Fig. la ein FluBdiagramm eines Algorithmus fQr die Potenzierung fQr die Ent- oder VerschlOsselung eines 
Datums nach dem ursprOnglichen RSA-Verfahren, 

Fig. lb ein FluBdiagramm eines Algorithmus fQr die Potenzierung fur die Ent- und VerschlOsselung des 
gleichen Datums gemaB Fig. 1 a nach dem erfindungsgemaBen Verfahren, 

Fig. 2 ein FluBdiagramm des serieDen Algorithmus fflr die in Fig; 1 erforderiiche Multiplikation, wobei die 
Multipfikanten Elemente der natOrlichen Zahlen sind. 

Fig. 3a ein FluBdiagramm des Multiplikations- Algorithmus mit einem zusfltzfichen Modulschritt, wodurch die 
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Multiplikanten hier Elemente ernes Restklassenringes fiber Ns ind. 

Fig. 3b ein Flufidiagramm gemaB Fig. 3a, wobei die Modul-Rechnung auf eine Subtraktion reduziert ist 
Fig. 4 ein FluBdiagramm ernes Look-Ahead- Algorithmic ffir die Multiplication, der die Look- Ahead-Parame- 
ter seriefi berechnet 

> Fig. 5 ein FluBdiagramm ernes Look- Ahead-Algorithm us ffir (fie Modulo-Operation, der die Look- Ahead-Pa- 

rameter seriell berechnet. 

Fig. 6a ein FluBdiagramm gemaB Fig. lb, wobei die Multiplikation und anschlieBende Modulo-Operation zu 
einem MuItMod-Schritt zusammengefaBt sind. 

Fig. 6b ein FluBdiagramm des in Fig. 6a verwendeten erfindungsgemaBen MuhMod-Verfahrens, ausgefflhrt 
Ui mit Look-Ahead, 

Fig. 7 eine Elementarzelle zur Realisierung einer MultMod-Schleife in einem Schritt 

Fig. 8 die Zusammenfassung von vier Eiementarzeflen gemaB Fig. 7 zu einem 4-Zeflen-Block mit einem 
hierarchischen Carry-Look- Ahead (CLA)-Element, 

Fig. 9 die hierarchische Zusammenfassung von jewdls ffinf 4-ZeDen-Blocken gemfiB Fig. 8 zu einem 20-Zel- 
len-Block 

Fig. 10 eine vollstandige Verschlfisselungseinheit mit mehreren 20-Zellen-Blocken gemaB Fig. 9, sowie mit 
einer Steuereinheit ^ 

Fig. 1 1 das Blockschaltbild eines Kryptographie-Prozessors, 

Fig. 12 ein Blockschaltbild einer Steuereinheit gemaB Fig. 10 nach Vorgabe der Loook-Ahead-Algorithmen 
?> gemSB Fig. 4 und 5, 

Fig. 13 ein hierarchiscbes Carry-Look-Ahead-Element, wie es bei den 4-ZeIlen-Bl6cken gemaB Fig. 8 zur 
Anwendung gelangt. 

Fig. 14 die Verschaltung der Carry-Look-Ahead-Elemente gemaB Fig. 13 innerhalb der Hierarchie der 20-Zel- 
len-BIocke, 

Fig. 15 ein Zustandsdiagramm bezuglich einiger Schrittfolgen des in Fig. 10 als Puffer ausgebildeten obersten 
20-ZeIlen-Blockes, 

Fig. 16 eine schematische Blockstruktur zur Verdeutlichung des Informationsflusses, und 
Fig. 17 einen Floorplan der Anondnung von Eiementarzeflen auf einem Chip; 

Unter Bezugnahme auf Fig. 1 wird nachfolgend zunachst der Verfahrensschritt ffir die Potenzierung erifiutert 
** Bei der Zerlegung in einfache Grundoperationen wird die Potenzierung in durchschnittlich 1,5 - L(£) Multiplika- 

tionen zerlegt Eist der Exponent und L(x) ist definiert als 

Z£x) : » Anzahl der binaren Ziffem von x 

i5 Die Zeitkomplexitat des Algorithmus ist 0(Z(£)). Seine Grundidee ist, den Exponenten binfir darzustellen, also 

in eine Summe von Zweierpotenzen zu verwandeln. Mit den Potenzgesetzen wird die Summe im Exponenten In 
ein Produkt von Potenzen der zu potenzierenden Zahl Fumgeformt Die e-te Potenz hat als Exponent die e-te 
Zweierpotenz oder die Null, je nachdem, ob an der e-ten Stelle im ursprflnglichen Exponenten eine 1 oder eine 0 
steht Die Faktoren sind also Quadrate bzw. die Zahl 1. 

40 

t*£ I- I 

pt = />' • = n E, *{0,1} 

e=0 

45 /«*•’=, (p*)* 

Die Stelle des niederwertigsten Bits wird defintdonsgemfiB mit Null bezeichnet Deshalb steht das hochstwer- 
tigste Bit an der Stelle £(£) — 1. 

Das{e+ l)-te Quadrat laBtsichleichtdurchQiiadratur des e-ten berechnen.Es ist deshalb vorteffliaft, ffir das 
Produkt ein eigenes Register Czu reservieren. Der Inhalt von Regsiter P wird dann in jedem Schritt quadriert 
• und wieder darin gespeichert Nach der Quadratur enthfilt Pdas e-te Quadrat, da nach dem (e — l)-ten Schritt in 

Fdas (e — l)-te Quadrat emgetragen worden war. 

Im Zwischenregister C steht zu Beginn die 1. Steht im Exponenten Fan e-ter Stelle eine 1, so wird im e-ten 
Schritt Cmit P multipfiziert und wieder darin gespeichert, andemfalls wird Cnicht verandert Da das Register P 
zu cfiesem Zeitpunkt das e-te Quadrat enthfilt, wird das obige Produkt, wegen der Gleichheit, P hoch E 
berechnet Nachdem letzten Schritt steht das Ergebnis im Register G 
Das im FluBdiagramm der Fig. la dargesteflte RSA-Verfahren enthalt im oberen Teil den Potenzieralgorith- 
mus. Im unteren Teil der Fig. 1 a wird im letzten Schritt Cmod N berechnet <L h. der letzte Schritt des RAS-Al- 
gorithmus. Weil auf die Restklassenarithmedk wfihrend der Potenzierung venrichtet wurde, hat Cbei groBen 
oo Zahlen eine astronoraische Stellenzahl angenommen. 

Dies verhindert der in Fig. lb dargesteflte Algorithmus des erfindungsgemaBen Verfahrens. Er nutzt das 
Kongruenzgesetz 

(a mod c) • (h mod £)e(a* b)mod a 
65 

Das jeweils entstehende Produkt wird durch die Modulorechnung auf den Reprfisentanten der Restklasse 
abgebildet Der Reprgsentant ist das Element der Restklasse, das atich Element des Ringes ist Dieses Element ist 
eindeuti&d. h. es gibt nurein Element in jeder Restklasse, das <fie Bedingtmg erf fill t 
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Bezogen auf den Algorithmus bedeuten 
a, b Produkte aus dem Schritt e — l,und 

Die Aussage der Kongruenz ist: das Ergebnis der Rechnung im Schntt e fSlIt in dieselbe Restklasse, 

a) wenn man die entstandenen Produkte aus dem Schritt e — 1 auf ihre Reprasentanten abbOdet und dann 
im Schritt edie Reprasentanten miteinander multipliziert oder 

b) wenn man im Schritt e die Produkte aus dem Schritt e — 1 miteinander multipliziert und dann dieses 
Produkt auf seinen Reprasentanten abbfldet 

Der Fall a wird im rechten Algorithmus (Fig. lb) bei jedem Schleifendurchlauf auf die Produkte angewandt 
Der Fall b ist im Iinken Algorithmus (Fig. la) Fealisiert, allerdings nur ein einziges Mai als letzter Schritt des 
Algorithmus. Durch die standige Abbildung haben die benutzten Register im rechten Algorithmus eine planbare 
Grofie bekommen. Die Zahlen, die sie speichera mflssen, sind maximal doppelt so lang wie die Lange des 
Modulus. Dies ist der Fall in dem Zeitraum zwischen Multiplikation und der Modulorechnung. 

Die einzelnen Schritte des umgeformten Algorithmus lassen sich auf der Ebene der Potenzierung nicht weiter 
zerlegen. Es besteht auch nicht mehr die Notwendigkeit daffir. Die Chip-Flache, die die Potenzierung benotigt, 
hat durch die standige Modulorechnung eine obere Grenze erhalten. 

' Nachfolgend wird nun unter Bezugnahme auf Fig. 2 der Verfahrensschritt fQr die Multiplikation erlautert. Bei 
dem erfindungsgemaBen Verfahren wird die Multiplikation durch einen seriellen Algorithmus geldst Er zerlegt 
die Multiplikation in I(Af) Shift-Operationen und durchschnittlich 0,5 - I(A4) Additionen. Mit Wist im folgen- 
den der Muldplikator bezeichnet . A . _ ._ _ .. ¥t . /AItn 

Der Platzbedarf hangt linear von Z(1W) ab, denn fOr diesen Algorithmus ist eme Anthmetik-Lodic-Unit (ALU) 
der Gr6Be Llhfi vorgesehen, so daB die Addition in einem Schritt geschieht. Das gleiche gilt dann auch fQr die 
Shift-Operation. Beide benotigen daher eine konstante Zeit fur ihre Operation. Zudem kann die Addition parallel 
zur Shift-Operation ausgefuhrt werden. Daraus folgt fQr die Zeitkomplexitat 

Tmus = L(A4) ♦ maj^TshSfb Tam) « 

Sie hangt, wie der Platzbedarf, linear von der Lange von M ab. Wenn der ben&tigte Platz allerdings die 
Moglichkeiten der Integration flberschreitet, <Lh. M und damit L(Af) einen bestimmtOT Wert Qbersteigt, Kt 
dieser Algorithmus nur in modifizierter Form verwendbar. Da dies bei der ins Auge gefaBten GroBe von 660 
Binarstellen (200 D eamalsteUen) nicht der Fall ist, wird dieses Problem in diesem AusfOhrungsbeispiel nicht 

diskutiert. , . . 

Der in Fig. 2 als FluBdiagramm dargestellte seriefle Algorithmus fur die Multiplikation baut, ahnlich wie der 
vorher .nhnnd der Fig. 1 beschriebene Algorithmus fur die Potenzierung, auf der BinSrdarstellung ernes Einga- 
beparameters auf. Hier ist es der Muldplikator M 



L(\n-i 

P*M = 

«* 0 



LiA& 

= Mu An-* 



t 2 UM)-m 



Die Multiplikation win! in Additionen zerlegt. P wird im Schritt m zum Zwischenergebnis Zaddiert, wenn an 
der (IXM) — m)-ten SteDe im Muldplikator eine 1 steht, andernfalls bleibt Z unverandert Danach wird die 
Schleife nodi (L{Af) - m)-nial ausgefuhrt Wegen der Verdoppelung von Zzu Beginn jedes Schleifendurchlaufs 
wird die Summe Z + Pdes m-ten Schrittes (Z(A 0 — m) malverdoppelt Das entspricht der Multiplikation mit 

der Zweierpotenz. . , , 

Zusammenfassend nutzt der Algorithmus aus, daB eine Multiplikation mit einer Binarziffer entweder den 
Multiplikanten selbst oder Null ergibt Weiterhin fdhrt er die in jedem Schritt erforderliche Multiplikation mit 
einer Zweierpotenz auf eine Verdoppelung von Zzurfick. In der BinSrdarstellung ist die Verdoppelung eme 
einfache Shift-Operation urn ein Bit nach links (defmitionsgemSB steht das niederwertigste Bit rechts). 

Der Modulo- Verfahrensschritt ist schematisch in Fig. 3 dargestellt WShrend der Potenzierung ist nach jeder 
Multiplikation eine Modulo-Operation auszuffihren, um eine zum Produkt kongruente Zahl aus dem Restklas- 
senring zu erhalten. Der in Fig. 2 beschriebene Algorithmus betrachtet die beiden Multiplikanten als Elemente 
der natflrlichen Zahlen, nicht des Restklassenrmges fiber N. Deshalb wird im Potenzieralgorithmus nach jeder 
Multiplikation ein Moduloschritt aosgeffihrt .... ,, . r _. 

Nach dem erfindungsgemaBen Verfahren wird auch die Multiplikation in diesem Restkiassennng ausgefGhrt. 
DafQr wurde der herkommliche Algorithmus an einer S telle verindert: Am Ende der Schleife wird das Zwi- 
schenergebnis Zauf seinen ReprSsentanten abgebildet 

Das ist notwendig, weil Z erstens verdoppelt und zweitens P (im ungfinstigsten Fall) zu ihm addiert wurde. 
D eshalb kann Zam Ende der Sdileife Werte haben, die gr&Ber oder gleich des Modulus N sind. 

Wird dagegen zum SchluB noch ein Moduloschritt hinzugefQgt, hat Znach dem Verlassen der Schleife immer 
Werte, die im eriaubten Zahlenbereich des Ringes liegen. Das Kongruenzgesetz, das es erlaubt, den Modulo- 
schritt vom Potenzieralgorithmus in den Mutliplikationsalgorithmus zu verlegen, lautet 

(a mod c) + (b mod c) b(s + b)modc 

Wie bei der Potenzierung ist auch hier die Aussage der Kongruenz: das Ergebnis der Rechnung im Schritt m 
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fill tin dieseibe Restklasse, 



a) wenn man die entstandene Surame im Schritt m — 1 auf ihren ReprSsentanten abbQdet und dann im 
Schritt m mit diesem weiterrechnet Oder 

b) wenn man im Schritt m zu der Sumrae a us dem Schritt m — 1 etwas addiert und dann diese Summe auf 
ihren Reprasentanten abbildet 

Da die Muldplikation in eine Summenfolge umgewandelt wurde, lautet der SchluB: Es ergibt das gleiche 
Ergebnis, zwei Zahlen zu muitiplirieren und dann die Modulorechnung auszufQhren, oder nach jeder Addition in 
der zeriegten Mutfiplikation sofort Modulo zu rechnen. 

Das Zwischenergebnis Zdes in Fig. 3a dargestellten FhiBdiagramms kaim in der Schleife nicht beliebig groBe 
Werte annehmen, wenn es beim Schleifeneintritt einen kleineren Wert als //hatte 

N > Z,P = > 3 • N>Z : = 2*Z+ R 

In dem erfindungsgemaBen Verfahren 1st die herkommliche Modulorechnung dunch eine einzige Subtraktion 
ersetzt 

Wenn Z am Ende der Schleife groBer oder gleich Wist, wird lediglich Wbzw. 2 NvorrZ subtrahiert, und der 
Wert von Zist wieder kleiner als N. Diese Schritte and im FluBdiagramm der Fig. 3b enthalten. 

FQr die Subtraktion wird keine zusatzlich Logik bendtigt, denn nach der Negation des Subtrahenten wird sie 
zu einer Addition und ist mit der Additionslogik berechenbar: 

a + b = a + (— b) 

Eine Zahl wird negiert, indem jedes einzelne Bit negiert wird Dazu muB abschlieBend nodi die Zahl 1 addiert 
werden. Das ist im VLSI-Entwurf mit einem Inverter pro Bit realisierbar. Da jedoch in der Speicherzelle beide 
Informationen vorliegen, das Bit und das invertierte Bit, wird auf einen zusatzlichen Inverter verrichtet 

Bei der Addition zweier Zahlen wird an die niederwertigsten Bits kein Obertragsbit (Carrybit) Obergeben. Soli 
nun subtrahiert werden, werden die negierten Speicherbits an die Additionslogik angelegt und gleichzeitig wird 
den niederwertigsten Bits ein Carrybit signalisiert 

Dieser Verfahrensschritt, der die Multiplikation mit der Modulo-Operation in erfindungsgemSBer Weise' 
miteinander verbindet, wird im folgenden MultMod genannt 

Die Erhohung der Rechengeschwindigkeit durch Look-Ahead-Verfahren laBt sich anhand von Fig. 4 erlau- 
tern. Analysiert man den MultMod-AIgorithmus und bedenkt die Mdglichkeiten der Parallelisienmg, so ergibt 
sich, daB viele Schritte umsonst ausgefuhrt werden. Genauer gesagt, ganze SchleifendurchlQufe (Zyklen) kdnnen 
entfallen, wenn auBer den beiden ersten, unabwendbaren Schritten keine der bedingten Schritte auszufQhren 
sind. 

Entfailt ein Zyklus, dann wird kein Schritt der Schleife ausgefuhrt, auch die unbedingten nicht Dies muB bei 
dem n&chsten, nicht ausgefallenen Zyklus bedacht werden. Zuerst muB jedoch berechnet werden, wieviel Zyklen 
Qbersprungen werden kdnnen. Sei nun sz — 1 die Anzahl der Obersp run genen Zyklen (Vlst der Schiebebetrag 
(Shift-Bfctrag) der Multiplikation und behalt im folgenden diese BedCutung). Mit dieser Information kdnnen die 
ersten beiden Schritte der Obersprungenen Zyklen im jetzigen Zyklus mitausgefOhrt werden (sz — 1 Qbersprun- 
gene Zyklen plus dem aktuellen Zyklus ergibt szZyklen j): 

1. Zwird nicht urn 1 Bit (V erdoppelung), sondem um sz Bits nach links verschoben und 

2. /n wird nicht um 1, sondem um sz erhidht 

Das Verschieben um sz Bits ist mit einem Barrel-Shifter in einem Schritt machbar (Conway; L, Mead, G, 
Introduction to VLSI Systems, Adison- Wesley Publishing Company, Ino, 1980). 

Methoden, die es ermdgBchen, QberflQssige Schritte zu Qberspringen, werden Look-Ahead (vorausschauende) 
Verfahren genannt Solche Verfahren mQssen nach sorgfaltiger Analyse fQr jeden Algorithmus getrennt entwor- 
fen werden. Es muB vor allem gepruft werden, ob der zu erwartende Zeitgewinn groBer ist als die Zeit zur 
Berechmmg der Qberspringbaren Zyklen. Bei der angestrefoten Hardware-Implementierung des gesamten Algo- 
rithmus wird der Zeitgewinn durch nichts geschmQlert da die Berechnung der Look-Ahead-Parameter parallel 
zum I&ngsten Schritt der Addition, geschieht 

Fur die Multiplikation ist seit langem ein Look-Ahead-Algorithmus bekannt Er hat zwei Zustande: 

1. LA =» 0, Nullen im Muhiplikator werden Qberlesen und 

2. LA = 1, Einsen im Multiplikator werden Qberlesen. 

Die Schrittfolge des Algorithmus lautet: 

1 . Setze sz : — 1 . 

2. Setze m : m + 1. 

3. Setze a :« 1 - 2* LA 

4. Es wird der 3-Bit-String A — m — 2] betrachtet Solange nidit fertig, fQhre in AbhSn- 

gigkeit vom 3-Bit-String und dem LA-Wert die in der ZeQe stehende Regel aik. 
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5. Im MuJtMod- Algorithm us ist auszufuhren: 



a. Schiebe Zum sz Bits nach links. 

b. Setze Z Z + a * P, 



Die romischen Zahlen in den Kiammem hinter der “Fertig^-Anweisung benennen die Regeln dieser Zeile, die 
erete Zahl steht f ur iA = 0 und die zweite fQr L4 = 1. Die 3-Bit-Strings, fainter denen “Unmogli^ ^eht 
war^n^ lh ? e ° b ? r ^ ts ™ Schritt davor die Regel II bzw. Ill zur Anwendung getommen 

?*f* ^ 1C < * ,e, 5 nur *** Zwiscfaenspetcher fQr die Information, ob Fbeim Additionsscfaritt nesiert 

i D dlC T m Schntt findet in der Implementierung keine Multiplikation start, da a nur die 
+ 1 und 1 annehnienkann.Das Verschieben von Z und die Erhohung von m ist vorher schon erklart worden. 
Iautet Look ' Aliead ‘ Regeln 1358611 sich leicht mit Hilfe der Summenzerlegung der Multiplikation verstehen. Sie 
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P* M = V/>* M L(V) _ m * 2 LiU) ' 

I 



, m r, d ^ foIgend t n Rechnungen die Stelle relativ zu £(M) - m bezeichnen, an der im Multiplikator, von 

der Stelle I(Ai) — m — 1 an gerechnet, das erste Bit ungleich LA steht. 

Regel I besagt, wenn in einem 0-String eine isolierte 1 steht, dann addiere an dieser Stelle Pzu Z Mathema- 
tisch ausgedrfickt: 



JO 



* 1 m m+s 

P* Mum -i * = £)/>* Mum-i * 2 ahn ~ x f ]£/> * 2 LW) ~ x = 2 L{tn ~ m *Z + 2 * p 

*=* i-m+1 

r/Pl e Sumrna p de11 djr zweiten Surame sind Null auBer den Wert Lambda = m + s, da an den Binarstellen 
L(M) — m -- 1 . . l\M) — m — sdes Multiplikator 00 . . . 01 steht 
Regel II ist am einfachsten im Zusammenwirken mit Regel HI zu verstehen. Regel II schaltet von einem 
0-5rtmg atdemen 1-String um, wenn auf die erste 1 mindestens noch eine zweite folgt An der Stelle der letzten 0 
wud Pzu Zaddiert Regel III ist zu II dual Sie schaltet von einem 1-String zu einem 0-String urn, wenn auf die 
erste 0 mindestens noch erne zweite folgt An der Stelle der letzten 1 wird Pvon Zsubtrahiert Sei si die SteUe 
derersten 1 und sO die Stelle der ersten darauf folgenden 0, beide relativ von m gerechnet so ergibt sich: 

" m+sl-l m+tO 

I,?* M uu) ., * 2 um ~ i = V>* Mum-x * 2 L< " ,_i + V^/»* 0 + £/>. Mum-, * 



i°«+l 



2 c «+il 



«+j0- 1 

2 m Z+0 + "£p* I * 2 Llui x 
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I 

= 2 Liv) ~ m *Z + 2 Llt,) ~ lm+l0 ~ l) * p* 

J-0 



= +z + 2 Ut,) ~ <m+i<> - l, * P* (2 s0 ~ 1 ' - 1) 



55 



= 2 £0#) “ i * * 2 + QLtAto-lm+Ul-tn _ 2 UA n-(a7+U0-l))y * p 60 

- der letzten Zeile folgt direkt Regel II und HL Die Stellen zwischen den beiden Umschaltpunkten brauchen 

mcht beachtet zu werden, vorausgesetzt alle sind 1. Ein Beispiel soli dies anschaulicher machen. 
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3 • 60 =180 

II * 00111100 = 101 10100 

*■ A A 

• msl sO L (Af) = 8, m— 1 , jfl = 2, jO = 6 

L (M) -m-sl..L (M) - m - *2 + 1 =5. .2 

L (A/ }-W“5l+ 1 = 6 

3 • (32 + 16 + 8 + 4) - 3 - (64-4) = 180 

Man spart zwei Additionen (somit zwei Zyklen), wenn man nicht ein Bit des Multiplikators nach dem anderen 
h» abarbeitet, sondem 1 -String als geometrische Summe betrachtet, die Summe berechnet und die unwesentlichen 
Bits flberspringt 

Bleibt noch Regel IV. Sie besagt, steht in einem 1 -String eine isoiierte 0, dann subtrahiere an dieser Stelle Pvon 



-ZEsergibtsich: 

, l 


m m+s 

= Muuy-i * 




m *■ s * 1 

= 2 ,JU ' m *Z+ V/». 1 * 2 ,iuy ~ l + 0 

i"m+ 1 




or+ 1 

= 2 L,ui ~ m * Z + 1 . 2 Ua) ~ i + Pm (2 Llu, ~ m ~ s - 2 Ltm ~ m ~ s ) 

I'm* 1 


2i 


Of + J 

= 2 f - ,u, ~ m mZ+ I * 2 Llu) ~ i - P* 

i~m+ 1 



Aus der Sicht des Look-Ahead-Verfahren sieht es nach der Subtraktion von Pan der Stelle £(Af) — (m + s) so 
30 aus, als sei der 1 -String nicht unterbrochen. Der Look-Ahead kann fortgesetzt werden. 

Mit dem im FluBdiagramm der Fig. 4 dargestellten Look-Ahead- Algorithm us fflr die Multiplication, der die 
Parameter seriell beredmet, ist gegenuber der Version ohne Look-Ahead kein Zeitvorteil zu erreichen, denn pro 
Zyklus k a nn nur ein Bit des Multiplikators getestet werden. Dieses FluBdiagramm dient daher auch nur der 
Umsetzung der Regeln in einen funktionierenden Algorithmus. Andererseits ist dieser Algorithmus fur die 
Hardware-Implementierung vorgesehen, jedoch geschieht dann die Berechnung der Look-Ahead-Parameter in 
einem Schritt parallel zu den Operationen anderer Rechenwerke, so daB am Ende eines Zyklus sofort die 
Parameter fflr den nachsten bereitstehen. 

In diesem Algorithmus k a nn der Shift-Betrag sz maximal den Wot curjc annehmen {curjc ist der “Name 1 * 
einer Variablen). Der Shift-Betrag gibt die Anzahl der Stellen an, um die ein Register verschoben wird. Ein 
Maximum des Shift-Betrages wird von der Theorie nicht gefordert, wohl aber von der Praxis. Der Barrel Shifter, 
der Zin einem Schritt in die berechnete Position schiebt, kann dies nur bis zu einem maximalen Betrag *8^ der im 
Entwurf festgelegt werden muB. A: ist der maximale Wert den curjc annehmen kann. Der Wert von curjc wird 
vom noch zu entwerfenden Modulo-Look-Ahead- Algorithmus festgesetzt 

Ist bis sz » curjc keine Regel zur Anwendung gekommen, dann wird Zum k Bits nach links versdioben und a 
43 erhalt den Wert 0, d. h. P wird weder addiert noch subtrahiert Die in einem Schritt machbare Arbeit muB aus 
Kosten- und Platzgrfinden in mehrere aufgeteilt werden. Wekher Wert fur k ein gOnstiger KompromiB zwi- 
schen den Forderungen der Geschwindigkeitssteigerung und der Reduzierung des benotigten Platzes ist, wird in 
einem der folgenden Abschnitte geklart 

Es folgt jetzt die Look-Ahead-Erweiterung auf den Moduloschritt (Fig. 5 ). Da aus Grflnden der Effizienz die 
50 Multiplication in den Rest k lassenring verlegt wurde, nutzt die im vorigen Abschnitt gefundene Verbesserung 
der Multiplikation durch Look-Ahead wenlg, wenn nicht auch fflr den Moduloschritt eine Methode zur Erzeu- 
gung von Look-Ahead-Parametern eingefuhrt werden kann. Sonst bremst der Moduloschritt den gesamten 
Ablauf, da er nach wie vor nur ein Bit pro Zyklus abarbeiten kann. Das Verfahren ist auBerdem einer Einschran- 
kung unterworfen. Der Erwartungswert des Shift-Betrages pro Zyklus sollte anniihernd flbereinstimmen mit 
33 dem des MultipHkations- Algorithmus. Ist dies nicht der Fall, bremst ein Look-Ahead- Algorithmus den anderen. 

Der erfmdungsgem&Be Algorithmus, der die geforderten Bedingungen erfflDt, und die genannten Regeln zu 
einem Algorithmus zusammenfaBt 1 st im FluBdiagramm der Fig. 5 dargestelit Wie zuvor, ist audi dieser 
Algorithmus aus denselben Grflnden smell besefarieben. In der Hardware-Implementierung hat er dieselben 
Eigenschaften wie der Look-Ahead-AIgorithmus der Multiplikation. 

60 Die Rahmenbedmgungen fur den Modulo-Look-Ahead-Algorithmus verlangen, daB die Erwartungs w e rt e 
beider Betrdge, um die pro Zyklus versdioben wird, Qberemstiimnen. Bisher wurde Nwcht verschoben: Zist in 
jedem Zyklus um ein Bit nach finks verschoben worden und Wrelativ dazu um ein Bit nach rechts, d. h. N behieh 
seine Position beL Dagegen wird das Look-Ahead-Verfahren einen Parameter sn generieren, der angibt, um 
wieviel Bits N relativ zu Znach rechts zu verschieben ist *kn^ist im folgenden der aktuelle Shift-Betrag des 
63 Modulo-Look-Ahead-Algorithmus, und V gibt an, wieviel Binfirstellen N zum jeweiligen Zeitpunkt absolut 
nach finks versdioben ist Im Register N stehen demnach Vielfache des Moduls NL Deshalb wird Z am Ende der 
MuhMod-schleife meistens kein Restklassen-Reprfisentant sein. Es kdnnen drei FSIle elntreten: 
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1. sn > szz //wird absolut um sn — szStellen nach rechts verschoben. Es muB Vorsorge getroffen werden, 
daB a nicht kleiner als 0 wird, da sonst mh Bmchteflen von Nuad nicht mit Vielfachen von //gerechnet wird 
Dies zerstort die Kongruenz. sa wird deshalb so berechnet daB der Wert von n minimal 0 wird. 

2. sn =* szes ist nichts zu beachten. 

3. so < sz: /'/wird absolut um sz — sn Stellen nach finks verschoben. Wenn die MOglichkeit besteht, daB n > 
im nachsten Schritt einen bestimmten, eingestefiten Wert MAX fibersteigt muB der Multiplikations-Look- 

A head- Algori thmus derart gebremst werden, daB n auf jeden Fall einen Wert kleiner oder gleich MAX 
annimmt So wird verhindert, daB n beliebig groB wird. 

Im Algorithm us von Fig. 5 ist am SchluB die Begrenzungdes maximal en Shift-Betrages von Z zu sehen. cur_k 
wird so gesetzt daB im ungOnstigsten Fall (sz « cor k und sn = 1) des nSchsten Schrittes n gerade den Wert 
AMA' annimmt ~ 

Ein Look-Ahead fflr die Modulorechnung erfordert unabhangig von den eingesetzten Regeln, daB mit 
Vielfachen von //gerechnet werden kann. Der Vorteil ist, daB sich die Muldplikadon und die Modulorechnung 
im allgemeinen nicht gegenseitig behindern. Eine Behinderung tritt nur dann ein, wenn im oben aufgefuhrten 1 1 
Fall 1 oder Fall 3 der Wert von sa bzw. szfQr einen Schritt nach oben begrenzt wird. Ein Nachteil ist, daB die 
Register groBere Zahlen als die des Moduls speichem mussen. Fur diesen Oberlauf muB im VLSI-Entwurf ein 
Puffer vorgesehen werden. 

Dieser Nachteil gilt aber nur fur zwei Register: Z und N. AuBerdem ist die PuffergroBe durch AfAATnach oben 
begrenzt Der VLSI-Entwurf kann also weiterhin von konstanten GroBen aller Register und nun auch des 211 
Puffers ausgehen. Welche GroBe der Puffer haben sollte, damit die Erwartungswerte nicht zu sehr sinken, wird in 
einem f olgenden Absdmitt besprocheri. 

Es mBssen noch die Berechnungsregeln der Look- Ahead-Parameter beschrieben werden. Dazu wird die Zahl 
ZCWbenotigt Sie ist definiert als zwei Drittel des Wertes vom Register Nz 

2 ~> 

ZDN: = y * N. 

Der Algorithmus lautet: 

jo 

l.Setze sn : *= 0. 

2.Setze b : « 0. 

3. Solange der Absolutbetrag von Zkleiner oder gleich 2DNvsX, fuhre aus: 

a. Setze sn : «=» sn + 1, 

b. seize n: «* n — l und 

c. schiebe ZDNum 1 Bit nach rechts, d. h. dividiere ZDN durch Z 

4. Setze b : — 2 * Z[Vorzeichen] — 1. Wenn das Vorzeichenbit den Wert 0 hat dann ist Z positiv, andem- 

falls ist Znegativ. 

5. Im MultMod-AJgorithmus ist auszuftthren: 

a Schiebe Num sn Bits relativ zu Znach rechts und 40 

- b. setze Z: «= Z+ b * //,d.h. wenn Zpositiv ist dann wird N von Zsubtrahiert andernfalls wird //zu 

Zaddiert 

Im letzten Schritt wird in der Hardware-Implementierung nicht multipliziert da b nur die Werte — 1,0 und + 1 
annehmen kann: an die Additkmslogik wird der Wert —/V* 0 oder + N angelegt Die Berechnung von ZDN A > 
bereitet auch keine Schwierigkeiten, denn ZDN wird nicht jedesmal neu berechnet sondern nur eineinziges Mai 
bei der SchlfisselBbergabe und wird dann derselben Shift-Operation unterworfen wie N. So bleibt die Relation N 
zu ZDN erhalten. 

Nach der SchlusselBbergabe muB ZDN jedoch berechnet werden. Zwei Drittel binir dargestelit sind 

0.101010101.. Die Berechnung von ZD/Vgescfaiehtdemnacb so: % V) 

1. Setze Z : = 0. 

2. Setze Z : = Z + K. 

3. Schiebe Zum 2 Bits nach links. 

4. Springe zu Schritt 2 zurdck, wenn ZDN nodi nicht genau genug berechnet ist 55 

Der letzte Schritt enthalt eine unscharfe Abbruchbedingung. ZDN ist genau bestimmt wenn jedes Bit des 
Mul tip likators “Zwei DritteP abgearbeitet ist Me Anzabl der Bits von “Zwei Dritter. die noch einen EinfluB auf 
den Vergleich von Zmit ZDN haben, ist dieselbe, wie die Anzahl der Bits, die der Komparator hat der den 
Vergleich durchfflhrt Die Breite des Komparators wird wiederum durch die verlangte Genauigkeit des Verglei- 
ches bestimmt Wie Im ndcbsten Absdmitt gezeigt wird, and 10 Bits mehr als ausreichend. Daraus folgt daB 
ZDNm wenigen Schritten berechnet werden kann. 

Wie gerade erwihnt werden von ZDN nur ein paar der hdchstwertigsten Bits zum Vergleich mit Zbenutzt 
Dies bewirkt natflrlich, daB Komparator ab und zu ein falsches Ergebnis fiefert denn ein hundertprozentig 
acherer Veigleidi mflfite aDe UN) Bits berficksichtigen. Dies ist ai is Hatzgrfinden nur schwer zu reafisieren. ^ 
Was aber viel schwerer wiegt ist die Tatsacbe, daB die Vergleichszeit d a nn Shnfich groB wird wie die norm ale 
Addidonszeit Der korrekte Vergleich wSre also ein Phyrrussieg. 

Welche Auswirkungen hat es aber, wenn der Komparator eine falsche Entscheidung getroffen hat? Dann hat 
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sn im nScfasten Zyklus den Wert 1. andemfaHs Mtte sn einen Wert groBer als 1 gehabt Es verschlechert sich 
demnach der aktueQe Shift-Betrag des nachsten Zyklus auf den Wert l.Beweis: 

Wenn der Comparator richtige Ergebnisse geliefert hat, dann istsnso bestimmt worden, daB 

2 ' “ * j * N <| Z| < 2"'“- “ * y * N 

ist. N wird nun um so Bits nach rechts verschoben, d. h. N wird durch 2 hoch sn dividiert Dann wird N, wenn 
negativ ist, zu Z addiert, andemfalls wird N von Z subtrahiert Daraus folgt, daB Nvom Absolutwert von 
subtrahiert wind. Das Ergebnis wird wieder in ZTabgespetchert 

j * N- N<\ Z\- N < j * N - N 

■—*N<Z' <-■* N (1) 

0 = >\Z'\<y* N. 

Da der Absolutwert von Zjetzt kleiner gieich einem Drittel von Nist, mufl im ndchsten Zyklus so > 1 sein: 
|Z|< j*iV<=>|Z|<2- , *y*yv = 2 -1 * ZDN = > j/i > 1 . (2) 

Teil 2 ist damit bewiesen. 

FaDt dagegen der Komparator eine Fehlentscheidung, ist die Ungleichung I nicht erfflllt. Eine Fehlentschei- 
dung wird z. B. dann getroffen, wenn ZDN durch Rundungsfehler bei der Berechnung etwas kleiner ge worden ist 
als zwei Drittel von N Liegt Z dann in der N&he, aber noch unter von zwd Drittel von N, ist die Vergleichsaussa- 
ge; ZDN ist kleiner als Z Tatsachlich jedoch hatte diese Aussage erst eine Bitstelle spater erfolgen mfissen. 
Daraus folgt: 

\Z\<j*N 

Z': = | Z| - N< \ * N- N - ^ 

J J 

= >|Z'|>y- 

Die Voraussetzung (1) ist nicht mehr erfQllt Es folgt 

\Z\> * N < = >\z\> 2 1 = 2" 1 * ZDN — >sn =» 1 ~q*e'd 

Die Auswirkungen eines Fehlers des Komparators sind also relativ harmlos. Das gibt dem Designer einen 
weiten Spielraum in der Wahl der Komparatorwehe, denn eine geringe Breite erhdht durch fehlerhafte Verglei- 
chenur die Zyklenzahl, verfalscht aber nicht die Rechnung. So kann ein Komparator geringer Breite entworfen 
werden, der zwar haufiger irrt, aber aufgrund des sehr schnell voriiegenden Ergebnisses trotzdem noch einen 
Geschwindigkeitsgewinn bringt 

Fur diese AbwSgung muB die Fehlerw ahrscheinlichkei t bekannt sein. Ein Fehler ereignet sich entweder durch 
Rundung nn letzten Bit von ZDN oder in Bits, die niederwertiger sind als das niederwertigste Komparatorbi t Sei 
Vdie Komparatorbreite, dann ist die Fehlerhaufigkeit Epsilon 

ei = /’(Fehler) — 

Anschaulich formuliert besagt der Ausdruck, daB nur dann ein Fehler eintreten kann, wenn alle hoherwertigen 
Bits den Vergleich nicht entscheiden konnten. Das ist bei einer von 2^Zahlen der FalL 
Da ausschliefilich die wahrscheinhchkeitstheoredschen Erwartungswerte der Look-Ahead- Verfahren fiber- 
emstinunen, wurden sie notwendigerweise durch den MultMod-Algorithmus voneinander entkoppelt Dabei 
wird in jedem Zyklus Z absolut und N relativ zu Z verschoben. Diese Entkopplung wird hier -r SchwimmeIf , 
genannt, und nachfolgend im Zusammenhang mit Fig. 15 nfiher eriautert 

Der Zustand, in demsich der Kiyptographie-Prozessor jeweils befindet, ist anhand der Schritte a bis e in 
*5 dargesteDt Die ObergSnge a , cund e verdeutlichen den Verschiebevorgang, wihrend bund tfnicht nSher 
entuterte Additionen oder Subtraktionen bedeuten. Die gezeigten Rechtecke (Tfirme) repr§sentieren die Regi- 
ster C( 14), N (18) und Z(20, 22, 24; Register des KryptograpWe-ProzessorsX Die Hdhe der Rechtecke betrfigt 
660 Bits + 20 Bits. 660 Bits ist die maximale WortUinge, und 20 Bits ist die GrOBe eines Puffers, der die Entkopp- 
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lung ermbgiicht 

Wenn beispielsweise der Schiebebetrag (Shift-Betrag; GrdBe der Verschiebung) der Multiplication groBer als 
der Schiebebetrag der Modulo-Operation ist, wird das Register M urn die Differenz der Schiebebetrage zum 
oberen Ende geschoben (vgL Schritte a und e); die oberstea Bits des Registers Af werden somit teilweise in den 
Puffer hineingeschoben. 

Im umgekehrten Fall wird Nzum unteren Ende geschoben (Schritt c). Die Oberwachung, daB //nicht a us den 
Puffergrenzen hinauslauft, wird weiter unten noch naher eriautert 
Vor dem Schritt a sei Nbereits um 10 Bits in den Puffer geschoben worden. Der Schiebebetrag sznimmt dann 
die Werte "3“, a l“ und “2“ an, wie unten in Fig. 15 zu erkennen ist Dabei werden die genannten Werte in diesem 
Beispiel nacheinander angenommen. Der Schiebebetrag si welcher die Verschiebung von //relativ zu Zfestlegt, 
nimmt hier nacheinander die Werte "2“, *3“ und “1* an, das bedeutet, daB Nabsolut gesehen um sn =* sz — si 
verschoben worden ist also ist sn nacheinander *1*, “—2“ und“l a . Nadi den Schritten a, cimd eist N jeweils um 
11, 9 bzw. 10 Bits in den Puffer verschoben worden. Dieser Vorgang stellt das dar, was weiter oben mit dem 
Begriff "Schwimmen" bezeichnet wurde. 

Im Schritt c ist der EinfluB der Look-Ahead-Grenze k fQr den Fall von k — 3 verdeutficht Obwohl der 
Algorithmus fdr si eine Verschiebung um 4 hatte vornehm en kdnnen, ist ATrelativ zu Znur um 3 Bits verschoben 
worden, und im Schritt e dann um 1 Bit Daher istNlm Schritt d von Z weder addiert nodi subtrahiert Das 
bedeutet also, daB das Vorzeichen b in Fig. 5 den Wert “0“ angenommen hat 
Nachfolgend wird der Verfahrensschritt der 3-Operanden-Addition eriautert Die Fig. d stellt das komplette 
RSA-Verfahren (Fig. 6a) dem nunmehr vollstandigen Ausfuhrungsbeispiel des erfindungsgemaBen Kiyptogra- 
phie-Verfahrens gegenuber (Fig. 6b). 

Hier sind die Abfragen, die in der letzten Fassung des MultMod-Algorithmus (Fig. 3) noch enthalten waren, 
durch die Aufrufe der beiden Look-Ahead-AIgorithmen ersetzt Die Berechnung der Look-Ahead-Parameter 
geschieht parallel Das soil durch die parallelen Zweige, in denen die Aufrufe stattfinden, ausgedrOckt werden. 

In dieser Version des Algorithmus kann in Z ein negativer Wert stehen, nachdem die Schleife abgearbeitet 
worden ist Deshalb muB zum SchluB im MultMod-Algorithmus mit Look-Ahead eine Ergebniskorrektur 
vorgenommen werden. Sollte Z negativ sein, dann ist Z + Wpositiv. Dieser Zusatzschritt ist im FluBdiagramm 
von Fig. 6b enthalten. 

Der Multiplikations- und der Moduloschritt sind auBerdem zu einem einzigen Schritt zusammengefaBt wor- 
den, der 3-Operanden-Addition. Es werden von der Logik pro Sdiritt nicht zwei, sondern drei Operanden 
gleichzeitig addiert, wie dies nachfolgend zu erkennen 1st 

A [il 

+B [/] 

+ CM 

SI 11 si 0) - 0 .. 3 

1 I 

Ximax +1] X [/ + 1] . .j. 0 

0 Y[i\ Y [0] 

Die 3-Operanden-Addition wird in zwei Abschnitte unterteilt Im ersten Abschnitt wird an jeder binaren Stelle 
eine Summe der drei Bits der Operanden A, 2? und Cge bildet Die Somme von A [/J B[i\ und C[/] kann die Werte 
0. 3 annehmen, sie ist also binar mit den zwei (1) Bits £[1] und 5[0] darsteDbar. Da die Summe an jeder Stelle 
gebildet wird, kdnnen aus den zwei Summenbits zwei neueZahlen X und Y zusammengestellt werden (/ = Obis 
max): 

Y[i] : « 5X01 Y[max+i] : *= 0 und 

X[i + 1] : = «5[ll X[0]:-0. 

Im zweiten Abschnitt werden die beiden Zahlen auf die Qbliche Art und Weise addiert Die Verlangerung um 
ein Bit bereitet keine Probleme, da das Ergebnis um mindestens ein Bit kflrzer ist als der langste Operand. 

Damit cfie Additionslogik nicht einen zu hohen Energieverbrauch hat, sind bei ihr an mehreren Stellen die 
Pullup-Transistoren weggelassen worden. Sie ist also in einem metastabilen Zustand. Kippt sie dann bei der 
Addierung in einen stabilen Zustand, so sie diesen nicht mehr selbstandig veriassen. Deshalb muB die Logik 

am Ende eines Zyklus mit einem extemen Precharge-Signal wieder in den metastabilen Anfangszustand ge- 
bracht werden.W&hrend dieses Zehr&ums wird die Bitaddition eingeschoben. 

Der Kryptographie-Prozessor 

Dieser zweite Teil der Erfindungsbeschreibung befaBt sich mit dem Blockschaltbiki und dem daraus rcsultie- 
renden Floorplan des Prozessors. 

Eine Teilaufgabe der Erfindung besteht darin, die Struktur einer spezialisierten Elementarzelle (10) die den 
RSA-Algorithmus optimal unterstBtzt, darzustellen. Mit dieser Struktur wird das Blockschaltbild des Prozessors 
festgelegt Dieses enth&lt genllgend Informationen, um einen darauf abgestimmten Floorplan des Prozessors 
entwerf en zu kdnnen. 

Wie wird der RSA-Algorithmus eftizient unterstutzt? Um diese Frage zu beantworten, mQssen die einzelnen 
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Schritte des Algorithm us auf die Eigenschaft OberprOft werden, ob sie selten ausgefQhrt werden und/oder wenig 
Zeit benotigen Oder ob das Gegenteil zutrifft Im ersten Fall ist es sinnvoller, die Sdiritte durch Mikroprogramm 
zu realisieren. Bei den zeitkritischen Schritten dagegen mufi die Hardware-Implementierung in die Elementar- 
zelle verlegt werden. Es werden die folgenden Schritte auf der Ebene des RSA-Algorithmus ausgefQhrt (siehe 
FluBdiagranun in Fig. 6): 

1. Die Initialisienmg; den beiden Variablen Cund e werden die Startwerte zugev/iesen. 

2- Die Schleife; in ihr gibt es zwei Abfragen und die dadurch induzierten Sprunge, zwei Aufrufe.des 

MuItMod- AJgorithmus und die Inkrementierung der Variablen e. 

Jeder der aufgelisteten Schritte wird entweder wahrend der Berechnung nur einmal ausgefuhrt, oder die 
Operation beschrankt sich auf wenige Bits, z. B. die bmdre Abfrage eines Exponentenbits. AuBerdem sind es 
e inf ache Operationen und benotigen daher kaum Rechenzeit Die Schritte werden also durch ein Mikropro- 
gramm realisiert Eine einfache Steuereinheit 42 wird dieses Problem ausfuhren (Fig. 1 1). 

Die Variablen, die mit einem kleinen Buchstaben bezeichnet sind, haben alle eine Z&hlerfunktion. Sie arbeiten 
eng mit der Steuereinheit 42 zusammen, da dessen Entscheidungen von den Zihlem abhangen und andererseits 
die Zahler in Abhangigkeit der I&tscheidungen der Steuereinheit de- bzw. inkrementiert werden. Sie mfissen 
deshalb in enger Nachbarschaft zur Steuereinheit plaziert werden. Dies ist mdglich, da deren Lange einen Wert 
von Id (L( A4)) Bits hat (Id = Logarithmus Dualis). Bei einer SchlGssellange von 660 Bits sind sie 10 Bits lang. 

Dieselben Argumente sind fflr die Abfragen und die Zsihler des MultMod-Algorithmus gtiltig. Allerdings 
werden diese Aufgaben von einer separaten anderen Steuereinheit 36 (Fig. 1 0) fibernommen, da die Berechnung 
der Look-Ahead-Parameter sehr zeitkritisch im Hinblick auf den Ablauf der MultMod-Berechnung ist. Die 
rechtzeitige Generierung der Shift-Betrage szund sn sowie der Information, ob und mit welchem Vorzeichen P 
und Nin die 3-Operanden-AdditIon eingeht, beeinfluBt die Zykluszeit wesentlich. 

Nicht in diese Steuereinheit gehoren die Operationen, die mit den UN) Bit langen 7^h!en durcfagefQhrt 
werden. Fur ihre Speicherung in nachster N3he der ausfQhrenden Logik sowie ffir die Logik selbst wurde eine 
Elementarzelie (Fig- 7) entworfen. 

Die benotigten Register und die Logik der Elementarzelie 10 ergeben sich aus Fig. 7. Danach uxnfaBt die 
Elementarzelie 10 ein Register 12, welches einen Multiplikator Menthah, sowie ein Code-Register 14 und ein 
Datum-Register 16. Es folgt ein UD-Shift-Register 18, welches //enthalt und —2 ... +2 Bit schiebt 
Weitere B estand teile der Elementarzelie 10 sind ein Barrel-Shifter 20, ein Bitaddierer 22, sowie ein Volladdie- 
rer 24, an den sich ein Carry-Look-Ahead-Element 26 anschlieBt 
Im RSA- und MuItMod- AJgorithmus werden zusammen ffinf Register benStigt: 

1. Das Register 12 ffir den jeweiligen Multiplikator M; die Lange des Re gis ters ist Z(JV). 

2. Das Register 14 ffir das verschlQsselte Datum; in ihm steht wahrend der Berechnung die Variable CJ deren 
Wert nach Abarbeitung des RSA-Algorithmus das Ergebnls der Verschlfisselung ist Die Lange des Regi- 
sters ist L(N)* 

3. Das Register 16 fflr das zu verschlflsselnde Datum; in ihm steht wahrend der Berechnung die Variable P, 
die zu Beginn des RSA-Algorithmus den Wert des zu verschlflsselnden Datums zugewiesen bekommt Die 
Lange des Registers ist Z{A/)l 

4. Das Register 18 ffir den Modul Aft in ihm steht wahrend der Berechnung ein Vielfaches des Moduls. Daher 
hat das Register die Lange UN) + MAX Dieses Register hat auBer der Speicherfunktion die Fahigkeit die 
Variable N in einem Schritt um mehrere Stellen zu verschieben. N wird in jedem Zyklus um sn Stellen 
relativ zu Z nach rechts verschoben. Gleichzeitig win! Z um sz Stellen nach links verschoben, d. h. //wird 
absolut um sn—sz Stellen nach rechts verschoben. sz und sn konnen die Werte 1 ...3 annehmen (der 
maximale Look-Ahead k wurde auf den Wert 3 festgesetzt). Der absolute Shift-Betrag, um den N nach 
rechts verschoben wird, nimmt also die Werte —2 ... 2 an. Ein negativer Shift-Betrag nach rechts bedeutet, 
daB N nach links verschoben wird. In Anlehnung an ein LR-Shift-Register wird die geforderte Funktion mit 
dem UD-Shift-Register (UpDown) 18 reakisiert, das in jedem Halbzyklus in jeder Richtung um 1 Bit 
verschieben kann, in einem VoDzyklus also um2 Bits. 

5. Das Register Z (umfassend 20, 22, 24) fur das Zwischenergebnis Z des MuItMod- Algorithmus; dieses 
Register wird zum Beginn jedes Zyklus ausgelesen und am Ende mit dem neuen Zwischenergebnis besehrie- 
ben. Das Register muB also nur fOr eine kurze Zeit die Variable ZTspeicbem. Am einfachsten wird diese 
Funktion durch die dynamische Speicherung jedes Bits von Z auf dem Eingangsgate eines Inverters 
realisiert Die Lange des Registers ist L^N) + MAX, da das Register 18 diese Lange hat und Zdessen Wert 
annehmen kann. Das Register Zist als Bestandteil des Volladdierers 24 aufeufassen. 

Die drei ersten Register 12 , 14 und 16 werden als statische Speicher entworfen, da sie fiber l&ngere Zeitr§ume 
Informadonen speichem mQssen. 

Neben den besprochenen Registern gehdrt in den Etementarzenenentwurf : 

1. Ein Barrel-Shifter 20, der das Eigebnis der Addition, das Zwischenergebnis Z, um 0 ..3 Bits verschieben 
kann. Die Einberiehung des 0-Bit-Shift in die Fahigkeiten des Barrel-Shifters ist notwendig, da die Multmli- 
kation vor der Modulorechnung fertig wird und dann ZTnicht ( !) mehr verschoben werden darf. 

2. Ein Bitaddierer 22 ohne Obertragungsbit (Carrybit), der die 3 Operandenbits In eine mit zwei Bits 
darsteDbare Summe umwandeh. 

3. Ein Volladdierer 24; so wind ein 2-Bit-Addierer bezeichnet der das Carrybit der nachstniederen Stelle 
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verarbeitet und selbst ein Carrybit ffir die nachsthdhere Stelle generiert 

Nachfolgend wird das Multlplizieren in dem AusfQhrungsbeispiel erlfiutert Die Additionslogik hat einen 
lesenden Zugriff auf die Register 16, 18 und 20, 22, 24, und sie kann in jedes Register eine Zahl abspeichern. P 
(Register 16) ist in jedem MultMod-Aufruf des RSA-Algorithmus einer der beiden Faktoren. Wird Pimmer als 3 
Multiplikant gewahlt und der andere Faktor als Multiplikator, dann genfigt es, wenn die Elementarzellenlogik 
nur die Register 16, 18 und ^( 20 , 22 und 24) auslesen kann, um die erforderlichen Shift-Operationen und die 
3-Operanden- Addition ausfuhren zu kdnnen. 

Die MultMod-Steuereinheit 36 (Fig. 10) I 6 st die Detailaufgabe, die Look-Ahead-Parameter zu generieren. 

Aus diesem Grund wird der Multiplikator M im Register 12 parallel mit dem Register Z verschoben. Die m 
MultMod-Steuereinheit 36 hat Zugriff auf die obersten Bits des Registers 12 (vgL Fig. 12 ). In Abhdngigkeit dieser 
Bits generiert die MultMod-Steuereinheit 36 den Schiebeparameter sz, der aber nicht direkt ausgegeben wird, 
sondem in entsprediende Steuersignale umgesetzt win! Diese Vorgfinge laufen in Fig. 12 in da* Multipfikations- 
Schiebelogik 50 ab. 

Entsprechend wird der Verschiebeparameter sn in der Modulo-Schiebelogik 52 generiert Ein Vergleicher 38 1 > 

vergleicht die oberen Bits von sz mit 1/3, 1/6, 1/12. . . von NL Entsprechend dem Algorithmus aus Fig. 5 wird das 
Vergleichsergebnis an die Modulo-Schiebelogik 52 geliefert Dieser Wert gibt den relativen Betrag an, um den 
das Register 18 relativ zu Z nach rechts verschoben wird. Die Modulo-Schiebelogik 52 generiert aus diesem 
relatival Wert und dem Schiebebetrag der MultipDkations-Schiebelogik 50 den absoluten Schiebeparameter sil 
Wiederum wird sn nicht ausgegeben, sondem gleich in entsprediende Steuersignale umgesetzt 20 

Die in Fig. 12 dargestellten Begrenzer 54 und 56 haben die Aufgabe, den Sdiiebebetrag sz oder sn zu 
begrenzen, falls das Register 18 die Puffergrenzen fiberschreiten sollte, was weiter oben schon erwihnt wurde. 

Die Signale des ersten Begrenzers 54 und des zweiten Begrenzers 56 werden von der Multiplikations-Schiebelo- 
gik 50 und der Modulo-Schiebelogik 52 mit verarbeitet 

Der erste Zahler 58 in Fig. 12 enthalt die Variable m(vgL Fig. 6b), die angibt wieviel Bits des Mul tip likators im 25 
Register 12 noch zu bearbeiten sincL Der zweite Zahler 60 enthalt die Variable n (vgL Fig. 6b bzw. Fig. 5), die 
angibt um wieviele Bits das Register 18 (N) in den Puffer hineingeschoben worden ist 

Nachdem in Fig. 7 eine Elementarzelle 10 dargestellt ist zeigt Fig. 8 wie in einem hierarchischen Aufbau aus 
mehreren Elementarzellen 10 ein 4-ZeIlen-BIock 28 mit einem hierarchischen Carry-Look-Ahead-Element 30 
aufgebaut wird. GemaB Fig. 9 sind fOnf 4-Zellen-Blocke 28 in einer weiteren Stufe zu einem 20-ZeDen-Block 32 ju 
aufgebaut und wie Fig. 10 zeigt and in einem weiteren hierarchischen Aufbau mehrere 20-Zellen-BIddce 32, 
von denen der oberste als Puffer 34 ausgebildet ist zu einer VerschlOsselungseinheit 40 mit einer MultMod- 
Steuereinheit 36 zusammengefaBt 

EinegemaB Fig. 7 aufgebaute Elementarzelle 10 ist in der Zusammenarbeit mit der MultMod-Steuereinheit 36 
in der Lage, alle Schritte der MultMod-Schleife gemaB Fig. 6b In einem Zyklus zuerledigen, da sie fflr jeden 35 
Schritt der Schleife (Verschieben des Modulus Num mehrere Bits im Register 18 (7V); Verschieben des Registers 
Z (20, 22, 24) um mehrere Bits im Barrel-Shifter 20; Ausfuhrung der 3-Operanden-Operation mittels des 
Bitaddierers 22 und des Volladdierers 24 und der Carry-Look-Ahead-ESnheit 26) eine spezielle Logik enthalt Die 
MultMod-Steuereinheit 36 berechnet (Fig. 12) parallel zur Arbeit der Elementarzelle 10 die Parameter des 
nachsten Zyklus. Damit ist die direkte Umsetzung des erfindungsgemfiBen Verfahrens in dem VLSI-Entwurf des 40 
Kryptographie-Prozessors gegeben. 

GemSB Fig. 13 und 14 wurde ein Carry-Look-Ahead-Element 30 entwickelt welches erkennt ob sich Carry- 
Bits fiber grdBere Distanzen beeinfluBen. Da dies im Kryptographie-Prozessor bei der gewfihlten Ldsung nur in 
einem von 30 000 Fallen so ist bestimmt nicht mehr die Dauer der lingsten (niederwertigste Carry-Bit beeinfluBt 
das bochstwertigsteX sondern der durchschnittlichen Additionszeit die Zykluszeit der Additionslogik. 45 

Das Carry-Look-Ahead-EIement (CLA) 30 ist hierarchisch aufgebaut Es verarbeitet die CLA-Signale der 
untergeordneten Stufe (linke Seite) und generiert ein CLA-Signal ffir die fibergeordnete Stufe (rechte SeiteX 
Ein Propagate-Signal einer Position bedeutet daB der Obertrag dieser Position vom Obertrag der nichstnied- 
rigeren Position bestimmt wird. Wenn alle Propagate-Signale aktiviert sind, generiert das hierarchische Cany- 
Look- Ahead-Element 30 das Propagate- Ausgangssignal dieses Elements. Ein Kill-Signal besagt daB diese >0 
Position keinen Obertrag hat Das KflJkAusgangssignal wird aktiviert wenn in den untergeordneten Oementen 
entscheidbar ist daB die hdchstwertige Position dieses Elements keinen Obertrag hat 

Die Carry-Look-Ahead-Elemente 30 kdnnen nadi einem Baukastenprinzip zu einer Baumstruktur zusammen- 
gesteckt werden. Sie reprfisentieren dann jeweils eine grdBere Anzahl von Carry-Bits. Der Vorteil der CLA ist 
die serielle Abarbeitung der Carry-Bits durch eine parallel-seriefle (baumartige) Abarbeitung zu ersetzen. 55 
Dadurch wird die Additionszeit erheblich reduziert 

In der Realitfit vervielf adit sich mit jeder zusfitzlich bendtigten Stufe allerdings die Lfinge der Signalpfade, so 
daB ab einer bestimmten Baumtiefe die 2kisammenfassung benachbarter Bfiume keinen Gewinn mehr erbringt 
Bei den Wurzeln dieser Baume wird der Obertrag dann wieder seriell verarbeitet 

Letzteres ist in Fig. 14 zu erkennen, weEche die Verschaltung der Carry-Look-Ahead-Elemente 30 in Verbin- 
dung mit einem Unterbrecher 62 zeigt Innerhalb eines Blockes von 20 Bits werden die Obertrfige durch den 
CLA-Baum verarbeitet Von Block zu Blodc wird der Obertrag seriell weitergereicht 

Dieses Konzept ist im Kryptographie-Prozessor 48 nodi geringfQgig erweitert Das nutzlos gewordene 
Block-Propagate-Signal wird dazu verwendet den Unterbrecher 62 zu aktivieren, der die Taktsignale ffir die 
Dauer von 8 Takten unterdrfidet Dies ist die Zeit die ein Obertrag durch. die gesamte serielle Blockkette *>5 
benddgt 

Wird also der Obertrag eines Blockes vom nfichstniederwertigen Block bestimmt ist das Block-Propagate-Si- 
gnal durch die Block-CLA automatisch aktiviert Der Unterbrecher 62 wird eingeschaltet und die Blcdckette 
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erhalt genugend Zeit, sicb korrekt einzupegein. 

Die Zykluszeit kann daher so eingestellt werden, daB ae gerade ausreicht, den Obertrag direkt benachbarter 
Blocke zu verarbeiten. Der VorteD hierbei ist sehr groB, da unabhangig von der Anzahl derStellen nur die Zeit 
eines Block-Obertrages beriicksichtigt zu werden braucht Die Dauer der Berechnung einer 660-Bit-Addition ist 
> daher nicht linger als die einer 20-Bit-Addition. Lediglich in einem von ungefahr 30 000 Fallen beeinfluBen sich 
die Carry-Bits fiber mehr als zwei Blocke hinweg. Dies erkennt die CLA. Die Addition benotigt dann nicht einen, 
sondem acht Zyklen. 

Aus der Zerlegung von RSA- Algorithm us in Grundoperatkmen und ihre Umsetzung in erne erfmdungsgem&- 
Be Schaltung kann die absolute Schrittzahl berechnet werden, die zur Verschlfissehing eines Datums (Nachricht) 
notwendig ist Daraus direkt ablehbar ist die Verschlusselungsrate in allgemeiner Form Vrsa. ausgedrfickt in 
codierten Bits pro Sekunde: 



VRSA.alta 



= f- 



L(N) 



i > 



3/2 *L(N) 



L(N) 



min (Erw(sz\ Erw(sn)) 



LWj 



20 




Sie ist 



min (Erw(sz\ Env(sn )) Bit 1 

Lr(N)~— L Sekunde J 



— proportional zur Frequenz/des Prozessors, 

v — proportional zur Anzahl der Bits UN)* die zusammen verschlfisselt werden, 

2 > — umgekehrt proportional zur Anzahl 3/2 - UN) der MultMod-Aufrufe 

— umgekehrt proportional zur Anzahl JJN)/inhj(Erw(szU Ers/sri)) der Additionen bzw. Subtraktionen je 
MultMod-Aufruf und 

— umgekehrt proportional zue Anzahl I(A/) - A/B der Einzelschritte, in die die Addition bzw. Subtrakdon 
einer groBen Zahl zerlegt wird. l?lst die Breite der ALU (je breiter die ALU ist, desto weniger Operationen 

a* sind zur Addition zweier Langwortzahlen notwendig) und A ist die Addition der Zyklen zur Ausfuhrung 

einer Operation. 



Fur den neuen Kryptographie-Prozessor ist Erw(sz) = Ers(sri) und A/B = 1 /L^N), weil die Datenbreite der 
ALU gleich der Lfinge der zu verschlusselnden Daten ist und die ALU-Operation nur einen Zyklus benotigt 
S j Daraus folgt in diesem Fall ffir die Verschlusselungsrate des Kryptographie- Prozessors Vrsa, ks* 
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Die Frequenz von 30 MHz ergibt sich aus einer Extrapolation einer in 5 pm-NMOS-Technologie erreichten 
Zykluszeit von 100 ns (ein als Labormuster hergestellter Prototyp besteht aus ca. 5 000 Transistoren in 
5 pm-NMOS-Technologie) auf heute gangige 2 pm-CMOS-Technologien. 

Aufgebaut ist das beschnebene Ausffihrungsbeispiel des erfindungsgem^Ben Kryptographie- Prozessors aus 
ca. 80 000 Transistoren in 2 jim-CMOS-Technologie. Die ChipflSche betrigt dann 5/1 mm x 5/1 miry Bei der 
maximalen Schlussel-Lange von 660 Bits ver- und entschlfisselt er im ungfinstigsten Fall Daten immer noch mit 
einer hohen Geschwindigkeit von 64 000 Bit/sec. 

Die logische Blockstruktur und der Floorplan ergeben sicb aus Fig. 16 und Fig. 17. Fig. 16 zeigt das Block- 
schaltbild des Kryptographie-Prozessors 48, das sich umnittelbar aus den vorangegangenen Erlautenmgen der 
Elementarzelle 10 ableiten ISBt 



. Konzeption des Floorplans gemaB Fig; 17 sind verschiedene Rahmenbedingungen zu beachten: Zum 

emmi die Straktur der Elementarzelle 10, weiterhin die Kommunikation der Elementarzellen untereinander und 
schheBlich die GewShrleistung des Anschlusses aller erforderlichen Steuersignale an die Elementarzellen. 

Vier Komponenten der Elementarzelle 10 t a p schen mit den entsprechenden Komponenten benachbarter 
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22, mittens der Barrel-Shifter 20 und viertens der Volladdierer 24. Das impliziert, das die einzelnen Komponen- 
ten der Elementarzelle Qbereinander plaziert werden, denn dann entstehen keine zusatzlichen Kommunikations- 
wege zu benachbarten Elementarzellen. Aus der relatrv hohen Anzahl der Komponenten folgt, daB die Elemen- 
tanmle der gewfihlten Ausffihrungsform des Prozessors einegeringe Bauhdhe und erne groBe Breite hat 
• Elementarzelle flach ist, eigibt ihre notwendige Stapelung einen schmalen hohen Turin, wie links 

tu ? 1 J s ^^ ien ^ fcrtigungstechnischen Grfinden werden mdglichst quadratische Chips angestrebt 
r~alb wird der Turm in emzelne Stapel aufgetdlt, die dann nebeneinander plaziert werden (Fig. 17 rechtsl 
Jeaer zwette Stapel steht auf dem Kopf, weil dann die Elementarzellen, die vorher an der Trennfinie fibereinan- 
der benachbart waren, zu sehlichen Nachbam werden. Die bendtigten Informationen werden an der Ober- und 
Unterseite der Stapel zu den NachbarzeUen fibertragen 
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Die noch nicht plazierten Einheiten des Prozessors, Hauptsteuereinheit 42 und I/O-Einheit 44, benotigen im 
Verhaitnis zur Verschlusseiungseinheit 40 so wenig Pla tz, daB sie an beliet»iger Stelle an ihrem Rand plaziert 
werden kdnnen. 
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